我的OpenAI-o1初步总结 - 600字看完~

o1(之前代号为草莓)的亮点及相关背景:

  • 大模型过往最大的挑战之一是无论遇到复杂还是简单的问题都只会用“系统1”来思考(也就是脱口而出),而我们人类在遇到复杂问题的时候会使用“系统2”的深度思考模式(这也是为什么COT的提示词技巧能带来模型结果的提升);
  • o1是一个在给出最终答案之前进行思考的模型,可以通过强化学习(RL)训练模型以获得更好的思维链。这为scaling开辟了一个新的维度:基座模型可以不再受预训练的瓶颈限制,现在也可以从scale推理计算着手来提升性能;
  • 虽然目前o1的思考时间以十几秒为单位,但想象一下,未来AI如果能像人一样思考数小时、数天甚至数周,是否能有可能解决复杂的科学问题,带来新的突破?

o1的个人评测及吐槽部分(部分内容来自和一位朋友的讨论):

  • 首先,请注意o1主要是适合复杂的科学、数学和编程问题来使用,建议不要在非上述场景下浪费宝贵的条数限额了
  • 从能力层面看,虽然还有各种第三方测试在跑着,但初步看个人感觉o1-preview综合能力不如Sonnet 3.5,擅长的编程能力也只是和Sonnet 3.5持平。o1-mini看起来是比gpt-4o-mini强(甚至在一些最新推理测评中o1-mini的分值还高于o1-preview);
  • 估计o1正式版(而不是目前的preview版)会好点,但是合理推断应该依然无法显著超越Sonnet 3.5,这点和之前的预期值确实相差有点大;
  • 更重要的问题是,o1模型家族费用太贵(例如o1-mini的价格直接是4o-min的20倍!),再加上思考(也就是CoT)时间长达15-20秒。进一步让人觉得实战使用性价比低

未来预测?

如果强行将OpenAI内部定位类比到Anthropic这边,可能是:

  • o1-mini == Haiku-3.5
  • o1-preview == Sonnet-3.5
  • o1 == Opus-3.5

但是o1能否超越估计年底会发布的Opus 3.5确实不好说,感觉Openai是明显疲软了。Openai能继续下调GPT-4o价格才是维持忠诚度的关键,还有到底啥时候出4o的voice api啊。。。

同时可以预期的是,1-2月后,其他模型也可以抄一轮作业了。。。


也再补充一段来自孔老师这篇《o1模型的技术分析(1)——OpenAI亲自下场做的Agent推理模块的技术原型 》的一些总结:

  • o1的API定价会包括思考过程部分的token(官方文档甚至建议在调试初期为内部思考预留25k token…),导致o1-preview目前的使用成本可达gpt-4o的几十到几百倍水平。再加上相当低的调用量限制,因此基本无法用于实际应用,可以说只是个官方技术原型展示
  • Prompt撰写技巧的变更(需要将o1当成一个全新类型的模型来看待):
    • 保持提示简单明了;
    • 避免链式思维提示;
    • 使用分隔符以提高清晰度;
    • 在检索增强生成(RAG)中限制额外上下文;
  • 从核心实现方式上来说,o1“更像是一个通用Agent的推理组件的技术原型”,例如在AI Agent中常见的反思、改正自己错误的这些步骤,o1针对这些做了加强训练
    • 但缺点是对于简单的问题容易弄得过于复杂,带来不必要的成本和时间延迟(也是为什么在一些问题上还不如4o),此外对于更加复杂的问题仍然求解能力有限;
    • 从好消息来说,Openai官方下场为大家演示了真正认真做Agent的推理部分可以做到什么程度(不过另一个角度看顶尖团队和资源也只能做到这个水平了,还有很大提升空间);