我的GPT4o发布总结 - 450字读完

4o的重点是作为一个端到端的原生多模态大模型,所有的输入和输出都由同一个神经网络来处理(不同于例如过往的GPT需要调用另外的语音-文字转换模型来辅助实现语音对话模式)

我印象深刻的亮点是:

  • - 无论从普通的文本响应还是语音对话响应上明显快了,这点在多模态场景下格外重要;
  • 情感理解和展现能力 - 过往的AI语音助手还是有很强的“机器人说话”感,而这次的4o确实感受了到更“像人”的谈吐能力。结合上面的“快”很有可能使得AI语音化的人机界面更快普及起来;
  • 图片生成能力的显著增强 - 例如在图片中支持特定文字的能力,以及甚至能生成写简单的3d图能力等;
  • 对多语言的支持更好 - 例如能用比以前更少的token支持中文和韩文 –> 更便宜(可以参考我写过这篇 - AI如何通过“切割术”理解我们的语言:探索大语言模型时代的语言不平等问题);补充:不过从今天爆出来的gpt4o tokenizer中的各种不靠谱的中文token来看,语言不平等问题还是任重道远。。。
  • 值得表扬的一个点是,不同于很多酷炫的AI demo,openai这次的发布算是相当实在了,感觉就是“无倍数、无特殊剪辑”的展示,而且甚至还录了一段模型的缺陷示范视频
  • 直降50%!