我的GPT4o发布总结 - 450字读完

发表于 2024-05-15 更新于 2025-10-17 分类于 AI

4o的重点是作为一个端到端的原生多模态大模型，所有的输入和输出都由同一个神经网络来处理（不同于例如过往的GPT需要调用另外的语音-文字转换模型来辅助实现语音对话模式）

我印象深刻的亮点是：

快 - 无论从普通的文本响应还是语音对话响应上明显快了，这点在多模态场景下格外重要；
情感理解和展现能力 - 过往的AI语音助手还是有很强的“机器人说话”感，而这次的4o确实感受了到更“像人”的谈吐能力。结合上面的“快”很有可能使得AI语音化的人机界面更快普及起来；
图片生成能力的显著增强 - 例如在图片中支持特定文字的能力，以及甚至能生成写简单的3d图能力等；
对多语言的支持更好 - 例如能用比以前更少的token支持中文和韩文 –> 更便宜（可以参考我写过这篇 - AI如何通过“切割术”理解我们的语言：探索大语言模型时代的语言不平等问题）；补充：不过从今天爆出来的gpt4o tokenizer中的各种不靠谱的中文token来看，语言不平等问题还是任重道远。。。
值得表扬的一个点是，不同于很多酷炫的AI demo，openai这次的发布算是相当实在了，感觉就是“无倍数、无特殊剪辑”的展示，而且甚至还录了一段模型的缺陷示范视频；
直降50%！