实战干货:Anthropic专家团队揭秘AI智能体构建的真实经验与陷阱

探索Anthropic团队在构建有效AI智能体方面的经验与洞见

AI智能体(agents)是当前AI领域最热门的概念之一,但关于它的实际含义、适用场景以及与其他AI系统的区别,业内存在诸多混淆。在我看过的诸多文章中,Anthropic去年底发布的这篇”如何构建高效的智能体系统”是写的最好的,尤其是不同于其他一些过于理论的讨论智能体文章,内容非常强调实用性,且Anthropic团队本来就在智能体实战方面有深厚的经验。具体可以参考之前我整理过的这篇内容解读

上周Anthropic又放出了一段针对构建智能体实战分享的后续讨论视频,团队中的三位专家:Barry Zhang(应用AI团队)、Erik Schluntz(研究团队)和Alex Albert(Claude关系团队)深入探讨了AI智能体的本质、实际应用和未来前景,是一段非常好的补充阅读。

将这两篇内容看成一个“如何构建智能体”的实战分享完全体来看的话,核心原则依然是:不要过度构建,能用简单方法解决的问题就不要额外添加复杂性。我整理了这段视频对话中的关键洞见,再结合原文的部分内容,希望对那些正在构建AI智能体的开发者有所帮助。

什么是AI智能体?定义的明确化

这次的视频对话中,首先讨论了AI智能体的定义,这确实是一个你会在不同地方看到各种不同答案的关键问题。Erik提出了智能体与工作流之间的关键区别:智能体具有更高的自主性和决策能力

“我们认为智能体的真正定义是让LLM自己决定运行多少次。它会持续循环直到找到解决方案。”

  • **工作流(workflows)**:通过预定义代码路径来编排LLM和工具的系统。每个步骤都有明确的输入和输出,流程可预测且线性,像”在轨道上”运行;
  • **智能体(agents)**:由LLM动态指导自身流程和工具使用的系统。具有自主决策能力,可以根据情况选择操作路径,持续工作直到完成任务。智能体能够自行决定何时完成,如何完成,以及需要采取什么行动;

Barry解释,这种区分是随着模型能力提升和团队实践经验积累而自然演化的 - 随着技术从单一LLM发展到多个LLM,再到LLM自我协调的阶段,智能体模式将变得越来越普遍且强大。这两种模式在实际应用中展现出截然不同的特点和价值,但重要的是要记住:

对于许多应用来说,用检索增强和上下文范例来优化单个LLM调用通常就足够了

智能体和工作流在实践中的区别

从代码和提示工程的角度看,这两种系统在实际实现上有着本质区别。

工作流提示通常遵循一条直线固定步骤:提示A生成输出,输出被送入提示B,提示B的输出送入提示C,依此类推。每个提示都非常特定,只接受一个输入并转换为另一个输出。例如,其中一个提示可能负责将用户问题分类为几个预定义类别,然后下一个提示基于这个分类提供更具体的回应。

Anthropic的文章中列出了几种常见的工作流模式,包括:提示链、路由、并行化、编排者-工作者模式和评估者-优化者模式。每种模式都有其特定的应用场景和优势。例如,路由适用于有明显不同类别需要分别处理的任务,编排者-工作者模式则适合那些无法预测所需子任务的复杂任务。

相比之下,智能体提示则更加开放和复杂。Erik指出,智能体提示通常为模型提供多种工具或选择,并允许模型自行决定如何利用这些资源解决问题。模型可能会进行网络搜索、编辑代码文件、运行代码等操作,并持续这个过程直到找到答案。

智能体的本质是在一个循环中基于环境反馈使用工具的LLM。

智能体设计的关键洞见

Barry分享了一个关于智能体设计的启发性故事,揭示了成功设计的核心原则。在一个入职任务中,他和团队需要运行OSWorld计算机使用基准测试。他们观察到模型的行为常常显得反直觉,难以理解为什么模型会做出特定决定。

为了突破这个瓶颈,他们采用了一个特别的方法:试图从模型的视角体验世界。他们闭上眼睛一分钟,然后只睁开眼睛看屏幕一秒钟,然后再闭上眼睛思考:”如果我必须编写Python代码在这个环境中操作,我会怎么做?”

“突然间一切都有意义了。”

这个练习带来的启示是:必须从模型的角度来思考。设计者需要理解模型”看到”的世界与人类的感知方式有何不同,并据此调整设计策略。

Erik补充了另一个常见错误:开发者往往会精心设计主提示,却忽略了工具描述的质量。许多人为模型提供的工具往往缺乏适当的文档说明,参数命名简陋且无意义。如同人类工程师无法有效使用没有文档的API,模型同样面临这种挑战。开发者需要记得工具描述同样是智能体提示中的重要组成部分,也需要精心设计。

智能体的实用应用场景

对话中专家们总结了智能体最适合的应用场景特点:

  1. 可验证性:代码智能体之所以特别有前途,主要在于其输出可以通过测试进行客观验证。代码有一个独特优势:可以编写测试来验证其功能性。虽然现实世界中完美的单元测试并不常见,但至少提供了一种验证机制,让模型能在每次循环中获得反馈信号;
  2. 价值与复杂性的平衡:智能体适合那些既有价值又具有一定复杂性的任务。这些任务足够复杂,使得传统方法效率低下,但又不至于过于复杂到难以管理;
  3. 错误成本可控:理想的智能体应用场景应当是错误监控和处理成本相对较低的情况;

以搜索为例(最近大火的各种Deep Research/Search其实也是智能体系统),深入迭代搜索非常有价值但也很困难,然而智能体可以通过精度与召回的权衡来逐步获取和筛选信息。在编码方面,通过测试反馈机制,智能体可以不断迭代改进,直到代码能够正常工作。Erik强调,如果没有某种反馈机制,智能体很难收敛到正确答案,因此具有清晰反馈循环的任务特别适合智能体应用。

被高估与被低估的方面

关于智能体技术的未来,专家们提出了一些有趣的观点:

被低估的方面:Erik认为,那些节省微小时间但可大规模应用的自动化任务往往被低估。

“看似只节省一分钟的自动化,实际上改变了动态,让你可以做那件事比以前多100倍。”

这种小规模但高频率的自动化积少成多,最终产生巨大影响。例如客户支持领域之所以适合智能体应用,也是因为它满足几个关键条件:有明确的成功标准(解决的客户问题)、能形成反馈循环,并且包含有意义的人类监督。

被高估的方面:消费者智能体可能是当前被过度炒作的领域。

Erik指出,对于很多消费者任务,完全指定个人偏好和需求几乎与自己完成任务一样耗时,而且验证成本很高。例如,让智能体为你预订假期,需要详细描述你的偏好和需求,这个过程本身就很费力。此外,消费者场景通常风险较高(如错误预订的航班),不像企业环境那样容易控制和纠正。

长期来看,消费者智能体最终会实现,但需要时间来建立上下文,让模型学习用户偏好,并且需要一些中间步骤才能实现如规划整个假期这样的复杂任务。

2025年智能体的未来展望

Barry对多智能体系统的潜力表示了极大兴趣。他分享了一个实验,在该实验中他构建了一个环境,多个Claude实例可以互相启动并一起玩”狼人杀” - 一种社交推理游戏,玩家需要推断彼此的角色。这种环境下产生的互动模式非常新颖有趣。就像行业从单一LLM发展到多LLM一样,到2025年底我们可能会看到从单一智能体向多智能体系统的转变。这一领域蕴含着许多有待解决的有趣研究问题,特别是关于智能体之间如何协作和交互的问题。

而Erik对2025年智能体的前景持更加务实的观点。他预测企业将大量采用智能体来自动化重复性任务,特别是那些以前因成本高而无法大规模执行的工作。他举例说,未来每个代码拉取请求可能都会触发一个编码智能体来自动更新文档 - 这样的应用在以前成本过高,但随着智能体变得更加高效和”免费”,这类增值功能将变得普遍。

给开发者的建议

最后,专家们为探索智能体技术的开发者提供了三条核心建议:

  1. 确保有衡量结果的方法:Erik强调了避免在”真空中构建”的重要性。许多开发者在没有任何反馈机制的情况下构建系统,结果无法判断它是否有效,或者是否有更简单的解决方案能达到同样的效果。设定明确的成功标准和衡量指标至关重要;
  2. 从简单开始,逐步增加复杂性:Barry分享了他与初创公司合作的经验,指出很多成功的团队能够在单个LLM调用中高效完成任务,而不是立即跳到复杂的智能体架构。这些围绕代码的精心编排即使在模型能力提升后仍然有价值,成为了这些公司的独特优势。他建议开发者在考虑智能体时,从简单解决方案开始,只在必要时增加复杂性。
  3. 构建能随模型提升而改进的系统:Erik在最后提出了可能是最有价值的建议:

“如果你看着你的初创公司或产品并想着,’如果模型变得更聪明,我们所有的护城河都会消失’,这意味着你正在构建错误的东西。相反,你应该构建这样的东西:随着模型变得更智能,你的产品会变得越来越好。”

也就是说,你所构建的应该是一个与AI进步相辅相成而非竞争的系统,这才是长期成功的关键。

结语

AI智能体代表了一种新的范式,让模型以更自主的方式解决问题。虽然这项技术仍在早期阶段,但通过理解其基本原理、设计考虑因素和最佳实践,开发者可以开始探索这个令人兴奋的领域,并为即将到来的更强大的模型和更复杂的应用做好准备。

正如Anthropic的文章和视频中专家讨论所揭示的,智能体和工作流各有其适用场景,有时简单的LLM调用足以解决问题,而不需要复杂的智能体架构。当要做智能体解决方案是,请记住这三点:

  1. 保持智能体设计的简单性;
  2. 明确展示智能体的规划步骤来保持透明度;
  3. 通过完善的工具文档和测试来精心打造智能体-计算机接口;

虽然市场上有许多框架可以帮助快速入门,但当需要部署到实际生产环境时,应该果断简化系统中的抽象层,直接使用基础组件进行构建。

在LLM领域,成功不在于构建最复杂的系统,而在于构建最适合你需求的系统。

Source:Tips for building AI agents