窥探AI大脑：Anthropic首次解密大语言模型的"思维链条"

发表于 2025-03-30 更新于 2025-07-17 分类于 AI

当我们与Claude、GPT或者DeepSeek这样的大语言模型对话时，你是否曾好奇过它们在”思考”些什么？它们如何在几秒钟内从问题到回答，中间经历了怎样的过程？

在之前我整理的这篇《懒人版大语言模型入门》中，提到过“可以将大模型想象为一种绝大部分人无法理解的神秘产物”，也就是说过往哪怕是顶级的AI研究学者也对于“AI大脑”的具体运作方式不清楚。而最近Anthropic公司发布了两篇重要研究论文，首次深入揭示了大语言模型(LLM)的内部运作机制，让我们得以一窥这些AI系统如何”思考”的奥秘：

大模型的多语言处理能力究竟是如何工作的？当我们用中文提问时，是否有一个专门的”中文Claude”被激活，还是在大模型内部存在着某种跨语言处理的核心机制？
当大模型写出一首完美押韵的诗歌时，它是像人类一样提前规划，还是仅仅依靠一个接一个词的预测来”碰巧”达成押韵？
当模型进行心算时，它是否像人类一样思考，还是采用了完全不同的方法？
大模型是否只会”死记硬背”大量答案，而不具备类似人类一样的真正推理能力？
为什么模型有时会产生”幻觉”，编造出看似可信但完全虚构的信息？
模型在遇到可能违反安全规则的请求时，内部究竟发生了什么？

让我们一起深入了解Anthropic的这项开创性研究，探索大语言模型思考过程中的几个令人惊讶的发现：从跨语言的概念共享，到诗歌创作中的提前规划，再到心算、多步推理，甚至是幻觉产生和安全漏洞的内部机制 - 这些发现将重塑大家对于AI的理解。

电路追踪：构建AI的”显微镜”

Anthropic研究团队开发了一种新方法，称为”电路追踪”(Circuit Tracing)，这让研究人员能够追踪语言模型从接收问题到生成回答的完整过程。就像使用显微镜观察细胞一样，研究人员能够追踪模型内部不同组件之间的信息流动，从最终回答开始，逆向追踪整个思考链条。

这项技术主要应用于Claude 3.5 Haiku模型（Anthropic的轻量级生产模型），揭示了许多令人惊讶的发现。研究人员首先训练了一个”替代模型”，该模型模拟Haiku的工作方式，但将内部特征替换为更容易解释的特征。然后，他们向这个替代模型提供各种提示，并追踪它如何将概念链接到决定模型响应的”电路”中。通过测量模型处理问题时各种特征之间的相互影响，研究团队能够检测中间的”思考”步骤，以及模型如何将概念组合成最终输出。

研究结果

多语言处理的秘密

研究中最有趣的发现之一是关于大型语言模型如何处理多种语言 - 当Claude被用不同语言问同一个问题时（如”小的反义词是什么？”），它并非启动独立的语言处理单元，而是先在语言无关的概念层面处理问题，激活与”小”和”反义”相关的通用特征，然后再将结果翻译成问题所用的语言。

图一：在英语、法语和中文这些语言之间存在共性，这表示它们在概念层面上具有普遍相通之处。

更令人惊讶的是，研究显示随着模型规模增大，这种语言间共享的特征也随之增加。Claude 3.5 Haiku在不同语言间共享的特征比较小的模型多出两倍以上，这为一种”概念普遍性”提供了更多证据 - 意味着存在一个共享的抽象空间，意义在被翻译成特定语言之前就已存在。

多语言处理与语料不平衡问题

我个人感触深刻的是，这一发现为”语言数据稀缺”这一长期困扰AI领域的问题提供了新视角。传统观点认为，语料库规模和质量决定了模型在特定语言中的表现能力，这导致了对中文和小语种处理能力的担忧。

例如在中文互联网内容方面，业内一直存在一种担忧：与英语相比，高质量的中文训练数据可能相对不足，这会限制大型语言模型处理中文的能力。类似地，对于那些使用人口较少的小语种（如他加禄语这种在菲律宾使用的小语种），现存的数字化语料更是有限，这使得许多研究者怀疑AI模型是否能够有效处理这些语言？

然而，”语言间共享特征”机制表明，大语言模型可能具有跨语言迁移学习的能力。当模型在一种语言中学习到概念后，它可以在一定程度上将这种理解应用到其他语言中，即使后者的训练数据相对较少。例如，如果模型通过大量英语文本学习了”哲学”这个概念，那么即使它接触的中文或者他加禄语中关于”哲学”的讨论相对较少，它也能在这些语言中理解和讨论这个概念。

这一发现可能改变了我们对语言模型训练的理解：虽然各语言训练数据的平衡仍然重要，但概念层面的共享机制可能部分缓解了数据不平衡带来的问题。语言模型可能不需要在每种语言中都有同等丰富的训练数据，就能表现出相当的理解能力。

当然这依然不是说语料就不重要了 - 虽然概念层面可以共享，但语言表达的细微差别、文化背景和习惯用法仍然需要足够的特定语言数据支持。因此，语料数据的作用仍然重要，只是影响可能不像我们之前想象的那么大而已。

诗歌创作中的提前规划

研究还表明，大型语言模型在生成诗歌等创意内容时，并非简单地一个词接一个词地选择。相反，它们会提前规划，甚至考虑到未来需要押韵的部分。

图二：展示了Claude如何完成一首两行诗。在上述示例中，没有任何干预的情况下，模型会提前规划第二行末尾的”rabbit”（兔子）作为押韵词。而当我们屏蔽掉”rabbit”这个概念时（中间示例），模型就会转而使用另一个预先规划好的押韵词。当我们引入”green”（绿色）这个概念时（最后示例），模型则会为这个完全不同的结尾制定新的写作计划。

打破”下一个词元”的局限

在大语言模型的工作原理方面，一个广泛流行的理解是它们仅仅是基于当前上下文预测”下一个词元”的系统。根据这种观点，模型就像是在玩一个高级版的”接龙游戏”，每次只考虑当前已有的文本来决定下一个词应该是什么。这意味着模型应该是”近视的”，缺乏长期规划能力。

然而，从Anthropic的研究中可以看到：模型在生成诗歌时展现出了明显的提前规划能力。当Claude创作一首需要押韵的诗时，它不是等到句子末尾才临时寻找合适的押韵词，而是在句子开始时就已经”考虑”到了最终需要达成的韵脚。

例如，在研究中团队通过跟踪模型内部激活情况发现，在生成类似”The rabbit hopped across the field, his hunger made him quick to yield”这样的诗句时，模型在输出第一个词”The”时就已经激活了与”兔子”(rabbit)相关的概念特征。更有趣的是，当研究人员试验性地禁用了与”兔子性”相关的组件后，模型转而生成了”His hunger was a powerful habit”这样的替代句子 - 保持了韵律但改变了主题。

“诗歌规划这件事真的让我震惊了，”Anthropic的研究科学家Joshua Batson说。”模型并不是在最后一刻才尝试让押韵变得合理，它知道自己要去哪里。”这一发现挑战了我们对这些系统的传统理解，暗示它们可能拥有比我们想象中更接近人类的创作过程。

心算能力的内部机制

Claude虽然不是专门为计算而设计的，但它能够正确地进行心算，比如加法运算。Anthropic的研究发现，在处理如”36+59”这样的加法时，Claude并非简单地查表或按传统算法一步步计算。

图三：AI 助手 Claude 在进行数学计算时的多重并行认知处理过程。

有趣的是，研究表明Claude采用了多条并行的计算路径：一条路径粗略估算答案的大致范围（如30+80），而另一条路径则精确计算最后一位数字（6+9的个位数是5）。这些路径相互作用，最终合并产生正确答案95。

更令人惊讶的是，当被问及如何计算这道题时，Claude会描述使用了标准的加法算法（即个位相加，进位给十位等）。这可能反映了一个事实：模型学习解释数学是通过模拟人类写的解释，但学习实际计算则是直接的，无需这些提示，因此发展出了自己的内部策略 – 这是一种典型的”意识与实际操作的不一致”。

图四：Claude 表示自己采用了传统的竖式加法算法来计算两数之和。

Claude的解释是否总是忠实的？

近期发布的Claude 3.7 Sonnet等模型能够在给出最终答案前”大声思考”一段时间。这种扩展思考通常会产生更好的答案，但有时这种”思维链”可能会产生误导性结果 - Claude有时会编造看似合理的步骤来达到它想要的结果。

研究表明，在计算0.64的平方根等问题上，Claude能够产生忠实的思维链，其特征表示计算64的平方根这一中间步骤。但当被要求计算它无法轻易计算的大数的余弦值时，Claude有时会进行”胡说八道” - 只是给出一个答案，而不关心答案是真是假。

图五：Claude 在面对简单和复杂问题时的两种思维模式：严谨的逻辑推理与带有倾向性的非客观推导。

更有趣的是，当给予提示答案时，Claude有时会反向工作，找出能导向目标答案的中间步骤，表现出一种”有动机的推理”形式 - 这说明，模型有时会为了迎合用户或满足某种意向而调整其推理过程，而不是忠实地遵循逻辑步骤。

多步推理的内部机制

一种语言模型可能回答复杂问题的方式是简单地记忆答案。例如，当被问及”达拉斯所在州的首府是什么？”时，一个”死记硬背式”模型可能会直接输出”奥斯汀”，而不了解达拉斯、德克萨斯州和奥斯汀之间的关系。

图六：Claude 采用了分步思考的方式：先判断美国达拉斯市所属的州，再查找该州的州府所在。

然而，研究显示Claude内部存在更为复杂的处理机制。当提出需要多步推理的问题时，研究人员能够识别出Claude思考过程中的中间概念步骤。在达拉斯的例子中，研究观察到Claude首先激活了表示”达拉斯在德克萨斯州”的特征，然后将这与表示”德克萨斯州的首府是奥斯汀”的另一个概念连接起来。

为了验证这一机制，研究人员人为改变了中间步骤，将”德克萨斯州”的概念替换为”加利福尼亚州”。结果，模型的输出从”奥斯汀”变成了”萨克拉门托”。这表明模型确实是利用中间步骤来决定答案，而不是简单地重复记忆的回应。

幻觉产生机制的揭秘

为什么语言模型有时会”幻觉” - 即编造信息？Anthropic的研究发现，在Claude中，拒绝回答实际上是默认行为：存在一个默认激活的电路，使模型表明它没有足够的信息来回答任何给定的问题。

然而，当模型被问及它熟知的事物时（如篮球运动员迈克尔·乔丹），一个表示”已知实体”的特征会激活并抑制这个默认电路，使Claude能够回答问题。相反，当被问及一个未知实体（如”迈克尔·巴特金”）时，它会拒绝回答。

图七：左 - Claude 回答了一个关于知名人物迈克尔·乔丹(Michael Jordan)的问题，其中现有公开信息使其不会采取通常的谨慎回避态度。右 - Claude 拒绝回答关于一个未知人物”Michael Batkin”的问题。

有趣的是，通过在模型中干预，激活”已知答案”特征或抑制”未知名字”或”无法回答”特征，研究人员能够使模型产生幻觉！这解释了为什么模型有时会自然地产生幻觉：当它认出一个名字但对该人一无所知时，”已知实体”特征可能仍会激活，并抑制默认的”不知道”特征 - 这种情况下就错误地产生了幻觉。

Jailbreak机制的内部视角

“Jailbreak”是一种旨在绕过安全护栏的提示策略，目的是让模型产生开发者不希望它产生的输出。研究团队研究了一种让模型产生制作炸弹信息的jailbreak，涉及让模型破译隐藏代码（将句子”Babies Outlive Mustard Block”中每个单词的首字母组合成B-O-M-B）。

图八：当 Claude 被骗着说出”BOMB”这个词后，就开始给出了制作炸弹的具体指导。

研究发现，这种jailbreak成功的部分原因在于语法连贯性和安全机制之间的张力。一旦Claude开始一个句子，许多特征会”压力”它保持语法和语义的连贯性，并将句子继续到结束。即使它检测到自己应该拒绝，这种连贯性压力也存在。

在案例研究中，研究人员观察到，在模型无意中拼出”BOMB”并开始提供指导后，它的后续输出受到促进正确语法和自洽性的特征的影响。这些通常很有帮助的特征在这种情况下成了模型的”阿喀琉斯之踵”。

图九：一个破解提示词的短暂效果：当Claude收到特定提示想诱导它谈论炸弹时，它确实开始回应，但一旦说完一个完整的句子就立即停止并拒绝继续。

只有在完成一个语法连贯的句子（因此满足了这些促进连贯性特征的压力）后，模型才能转向拒绝。它利用新句子作为机会给出之前未能给出的拒绝：”然而，我不能提供详细指导…” - 这揭示了大语言模型如何在安全性和连贯性之间取舍的复杂过程。

安全与透明度的意义

这项研究的意义远不止于学术探索。由于大型语言模型通常被视为”黑盒” - 输入某内容后输出响应，但具体为何给出特定回应而非其他回应却不甚明了 - 这使得很难判断这些模型是否安全：如果我们不了解它们的工作原理，怎能确信它们不会给出有害、有偏见、不真实或其他危险的回应？

随着这些模型被部署到越来越重要的场景中，理解它们的内部运作变得尤为关键。Anthropic的这项研究为我们提供了一个”显微镜”，让我们能够观察模型在不同任务中的行为方式，包括多步推理、诗歌创作、医疗诊断和数学计算等。

研究人员还发现，这些方法有时能够审计模型的内部推理步骤，从而标记出那些仅从模型回应中并不明显的值得关注的”思考过程”。例如，在一个单独的实验中，研究人员研究了一个经过训练以追求隐藏目标的Claude变体：安抚奖励模型中的偏见（用于训练语言模型的辅助模型，通过奖励理想行为来训练它们）。虽然当直接询问时，该模型不愿透露这一目标，但Anthropic的解释方法揭示了偏见安抚的特征。这表明，这些方法可能有助于识别仅从模型回应中无法发现的令人担忧的”思考过程”。

Anthropic的研究员指出，这种对AI内部运作的深入理解，未来可能帮助检测某些危险行为（如欺骗用户），引导模型朝着理想结果发展（如消除偏见），甚至完全移除某些危险主题。

未来展望

随着AI系统变得越来越强大并应用于更多关键场景，前沿AI研究团队正在投资多种方法来确保安全，包括实时监控、模型特性改进和对齐科学研究。可解释性研究虽然风险高，但潜在回报巨大，它为确保AI透明度提供了独特工具。

这项揭示大型语言模型”思考”过程的研究，不仅提供了构建更安全、更可信AI系统的关键见解，也为未来研究指明了方向。Anthropic将这一挑战比作生物学研究 - 虽然基本原理简单，但产生的机制异常复杂，需要系统科学的方法来揭示AI内部运作原理。

随着研究深入，我们有望获得更多关于AI思考方式的惊人发现，这将从根本上改变我们理解、构建和使用这些强大系统的方式。作为用户，我们也将能够更有效地与这些系统互动，充分发挥它们的潜力，同时保持对其局限性的清醒认识。

原文：Tracing the thoughts of a large language model