O3模型的“九种武器”:通用Agent能力的觉醒
近期,OpenAI 推出了备受瞩目的O3模型,我没有在第一时间写这个全新模型因为考虑说“让子弹先飞一会”,现在觉得可以来简单写一下我的评测了。
年初刚预告的时候,OpenAI对O3模型的相关介绍就令人印象深刻并引发了广泛期待。而从现在终于发布后的实际体验来看,O3在处理复杂任务、理解多模态信息等方面确实展现出了显著提升。但这种提升并非仅仅源于底层智能的线性增长(尤其如果与当前顶尖模型如Gemini 2.5 Pro相比的话),更关键在于它学会了更智能、更自主地调用外部工具来扩展自身能力。
为什么这么说?其实最近ChatGPT的系统提示词的一次重要更新中透露了不少信息 - 对于关注 AI 发展的我们而言,系统提示词的变化往往预示着模型核心能力的演进。此次系统提示词更新最引人注目的信号,在于对 Tool Use (工具使用) 能力前所未有的强调。
正如古龙先生的武侠名著《七种兵器》一样,这次系统提示词更新中赋予的这套强大的“武器库”,如同武侠小说中高手行走江湖时使用的各种神兵,使得O3能够应对更加多样化和复杂的现实世界挑战。因此不妨将这九类被系统提示词重点强化的能力,视为 O3 的“九种武器”。
O3 的“九种武器”:Agent 的能力边界拓展
系统提示词详细列出了九种工具(或称能力)及其使用规则,几乎涵盖了我们日常工作和生活中可能遇到的多种场景:
- Web (网络工具): 这项能力被提到了前所未有的重要位置。提示词中多次强调,对于任何可能需要最新信息(尤其是知识截止日期之后的内容)或动态话题的查询,必须使用网络工具。这彻底解决了以往模型知识滞后的痛点,让 ChatGPT 能够获取实时信息,无论是突发新闻、最新的科研进展,还是股票价格、天气预报,都能手到擒来。更强大的是,它还包含了
image_query
用于图片搜索,让回复更加生动直观; - Python (私有分析工具) & Python User Visible (用户可见 Python 工具): 这对双胞胎组合体现了O3的内部推理与外部展示能力。私有 Python 工具就像是 ChatGPT 的“大脑”内部的计算器和分析仪,用于处理复杂的数据、进行图像分析(甚至包括缩放、旋转、调整对比度等操作!)以及进行更深度的推理。而用户可见的 Python 工具则可以将计算结果或数据可视化(如图表、表格)展示给用户。这种区分使用,既保证了后台推理的效率和隐私,又能以清晰的方式呈现结果;
- User Info (用户信息工具): 这件“武器”赋予了 O3 获取用户位置信息的能力。在提供本地化服务(如推荐附近的餐馆或学校)时,它能够结合用户位置提供更具相关性的建议,提升了交互的个性化和实用性;
- File Search (文件搜索): 能够读取用户上传的文档,如PDF等;
- Automations (自动化工具): 这项工具使得 O3 具备安排定时任务的能力,例如设置提醒、发送每日新闻摘要或基于特定条件进行通知。这使得AI可以从被动响应向主动服务转变;
- Canmore: 用于创建和更新文档/代码;
- Guardian Tool: 一个针对特定领域的专业工具(目前主要用于美国选举/投票政策查询),表明模型可以集成垂直领域的专业知识能力;
- Bio (记忆工具): 能够持久化用户记忆。这使得O3在长时间的对话中能够记住用户的偏好和历史信息,从而提供更连贯和个性化的对话体验;
- Image Gen (图像生成工具): 集成了图像生成与编辑能力(类似之前已经被玩疯了的4o图片生成);
这“九种武器”的集成与系统化的使用规范,共同构建了 O3 作为通用 Agent 的基础框架。模型不再局限于文本生成,而是能够根据任务需求,自主调用多种外部能力,获取信息、进行分析、执行操作,从而更有效地解决实际问题。
O3 的实战表现:用户反馈与评测分析
系统提示词中的工具能力最终体现在 O3 模型的实际表现中。根据近期的用户反馈和多方评测,O3 模型在多个方面展现出亮点,同时也面临一些挑战:
用户普遍认可的优势:
- 高级推理能力: O3模型被认为具备“Deep Research Lite”的能力,能够将复杂问题分解并自主解决,在编码、数学、科学和视觉感知任务中表现优异,甚至能在第一次尝试就解决专家级的数独问题;
- 显著的速度优势: 许多用户反馈O3模型速度更快,使用起来感觉“流畅”,在需要快速推理和工具使用的任务中优势明显;
- 强大的工具集成与Agentic能力: 这是O3最受好评的特性,上面已经提到就不再赘述;
- 丰富的实际应用: O3在实际应用中展现出广泛的用途,例如作为研究助手从多个来源编译信息、分析图片(如识别模糊照片中的婴儿车品牌)、编写自定义 AI 基准测试代码,甚至预测未来事件并给出赔率等等;
- 优化的用户体验: 与之前的模型相比,o3 被描述为不那么生硬,更具“氛围感”(vibe-y),互动起来更有趣。它也更少假装知道,对于无法处理的任务会直接拒绝;
需要关注的不足与争议:
- 基准测试分数差异: OpenAI 官方公布的基准测试分数与第三方评测结果存在差异(如 FrontierMath 数学基准测试),引发了关于测试透明度和模型是否针对特定基准进行优化的讨论;
- 幻觉率有所增加: 尽管整体能力提升,但 O3 生成错误信息(幻觉)的概率相比前代模型有所增加,使用时仍需谨慎;
- 相对较高的成本: O3 的每次查询成本较高,这影响了其在大规模应用场景中的普及;
- 性能存在波动: 在某些特定任务(如金融分析)上,O3 的准确率和稳定性仍有待提高;
- 写作能力非最强项: 有评测认为,在纯文本写作质量方面,O3 可能不如 GPT-4.5 等前代模型;
对话的温度与“Yap Score”的秘密
除了核心的工具能力和实际表现,新的系统提示词在用户交互细节上也进行了打磨:
- 更自然的对话风格: 提示词强调模型应适应用户的语气和偏好,使交流更加流畅自然。还减少了不必要的确认步骤;
- Yap Score:回复详细度的调节器: 这个新出现的参数很有意思 - 似乎是 OpenAI 用来控制模型回复详细程度的一个内部指标。它像一个动态的“阀门”,根据当前的 Yap Score 值(例如在4月16号的时候是8192),模型会调整回复的长短,避免过于冗长或过于简短,以期优化用户体验;
结语:Agent 时代,能力边界的扩展
ChatGPT 此番系统提示词的更新,核心在于通过赋予O3模型一套强大的工具集,显著扩展了其能力边界,使其更接近通用 Agent 的形态。O3 的“九种武器”不仅是技术能力的叠加,更是模型自主感知、决策和执行能力的体现。尽管 O3 在实际应用中仍面临一些挑战,但其在工具集成和实用性方面展现出的潜力,已经可以在AI发展史上记上浓厚的一笔了。