Claude 3.7 Sonnet发布:实用化的推理能力
今天,Anthropic发布了Claude 3.7 Sonnet,这是他们迄今为止最智能的模型,也是市场上首个”混合推理模型”。这一创新标志着:用户不再需要在快速回答和深度思考之间做出非此即彼的选择,而是在同一个模型中获得两种能力。通过研究这个新版本后,我了总结一些发现的几个值得特别关注的创新点供参考:
一种不同的推理哲学
最引人注目的是Anthropic对推理能力的独特处理方法。当其他公司都是在标准大模型旁边发布单独的推理模型时(例如OpenAI的GPT-4o和o1,或者是DeepSeek的V3和R1),Anthropic选择了在Claude 3.7 Sonnet中采用更统一的方法(OpenAI曾经说过未来也会走类似的方向)。
这一核心理念感觉和之前将标准大模型和推理模型用人脑的系统一和系统二思考来类比一样:人类是使用同一个大脑进行快速回答(系统一)和深度思考(系统二),因此推理能力也应该是单一模型的集成功能,而不是个单独的专门模型。
根据Anthropic官方blog上介绍自己和市场上其他推理模型的三个关键区别:
- 具有双重模式的统一模型:Claude 3.7 Sonnet既可以作为标准LLM,也可以作为推理模型。你可以选择何时需要快速响应(标准模式),何时希望Claude在回答前进行扩展思考(推理模式)。标准模式本质上是升级版的Claude 3.5 Sonnet,而推理模式则显著提高了在数学、物理、指令遵循、编程等复杂任务上的表现;
值得特别注意的是,Anthropic发现对模型的提示工程在两种模式下工作方式相似,这与其他推理模型(如OpenAI的o1)形成了鲜明对比。后者通常需要完全不同的提示策略——O1更偏好零样本提示(直接提问),而传统非推理模型更偏好提供示例。Claude统一的提示方法大大降低了用户的学习成本,使切换模式变得无缝流畅; - 可配置的思考资源:使用API时,你可以精确指定Claude应该花费多少tokens(*AI处理和生成文本的基本单位,类似于”文字币”*)进行思考 - 从零到128K tokens输出限制的任何数值。这让开发者能对速度/质量/成本进行精细权衡;例如,当需要快速回答简单问题时可以分配较少tokens,而面对复杂分析时则可以分配更多思考资源;
- 聚焦实际问题:不同于其他模型还在为数学竞赛题和理论科学问题内卷时,Claude团队直接把焦点放在了真实世界的脏活累活,也就是更好地反映企业实际使用情况的现实世界任务;
继续加强在代码能力方面领先优势
Anthropic在模型方面重点投资的一个领域就是编程能力,我刚分享过这篇AI代码能力的市场化检验:OpenAI用真金白银考验大模型研究中提到过,在采用真实的自由职业者软件项目来考验AI的时候,Sonnet 3.5已经是最擅长写代码赚钱的AI。而这次的Sonnet 3.7模型发布的官方博客文章中继续强调了”在编程和前端网页开发方面的特别强大的提升”,并推出了一个名为Claude Code的新命令行工具,使开发者能够直接从终端委派大量工程任务。
对编程技能的重视得到了来自开发者工具公司如Cursor、Cognition、Vercel、Replit和Canva的印象深刻的证言,他们都报告了Claude在处理真实世界编程任务方面的显著改进。能力范围从管理复杂代码库到规划和执行全栈更新以及从头开始构建网络应用。
不仅如此,Anthropic还扩展了他们的GitHub集成到所有Claude计划,允许开发者将其代码库直接连接到Claude。上述这些都可以理解为Anthropic希望巩固Claude作为开发者首选AI助手的地位。
大胆的选择:可视化思考过程
这次Anthropic决定以全透明的形式向用户展示Claude的深度思考过程,这与他们过往的常规做法有很大不同,推测部分是来自DeepSeek R1模型全公开了推理流程造成的竞争压力。
Anthropic概述了这种全透明推理流程的几个优点:
- 信任:看到Claude如何推理,更容易理解和验证其答案;
- 对齐:可视化思考可以通过揭示内部思想和外部回应之间的矛盾来帮助识别潜在的令人担忧的行为;
- 教育价值:用户可以从观察Claude的问题解决方法中学习,这种方法据说类似于数学和物理等领域的人类专家处理复杂问题的方式;
然后也坦率地指出了缺点:
- 思考过程缺乏Claude回应中典型的精心打磨、平易近人的特质;
- 关于”忠实度”的问题 - 我们不能确定显示的思想真正代表了模型内部发生的事情;
- 安全隐患 - 恶意行为者可能利用可视化思考过程开发更有效的越狱方法;
Anthropic将透明推理流程功能定位为”研究预览”,并表示他们将重新评估是否在未来版本中保留它。
写在最后
Claude 3.7 Sonnet的官宣博客中的最后一段中清晰地体现了Anthropic公司的长期发展愿 - 一个从”assists”(辅助)到”collaborates”(协作)再到”pioneers”(开拓)的清晰演进路径:
- 2024年,Claude以辅助者的角色出现,”帮助个体更好地完成当前工作,使每个人成为最好的自己”;
- 2025年,我们现在看到的是Claude向协作者角色的转变,它”能为你独立完成数小时的工作,与专家平等合作,扩展每个人或团队的能力;
- 而到2027年,Anthropic的愿景是让Claude成为开拓者,能够”为棘手问题找到突破性解决方案,完成原本需要团队花费数年才能实现的成就”。
从简单的辅助工具向真正的协作伙伴转变。这是实现”AI同行”这一愿景的重要一步。