窥探AI大脑:Anthropic首次解密大语言模型的"思维链条"
当我们与Claude、GPT或者DeepSeek这样的大语言模型对话时,你是否曾好奇过它们在”思考”些什么?它们如何在几秒钟内从问题到回答,中间经历了怎样的过程?
在之前我整理的这篇《懒人版大语言模型入门》中,提到过“可以将大模型想象为一种绝大部分人无法理解的神秘产物”,也就是说过往哪怕是顶级的AI研究学者也对于“AI大脑”的具体运作方式不清楚。而最近Anthropic公司发布了两篇重要研究论文,首次深入揭示了大语言模型(LLM)的内部运作机制,让我们得以一窥这些AI系统如何”思考”的奥秘:
- 大模型的多语言处理能力究竟是如何工作的?当我们用中文提问时,是否有一个专门的”中文Claude”被激活,还是在大模型内部存在着某种跨语言处理的核心机制?
- 当大模型写出一首完美押韵的诗歌时,它是像人类一样提前规划,还是仅仅依靠一个接一个词的预测来”碰巧”达成押韵?
- 当模型进行心算时,它是否像人类一样思考,还是采用了完全不同的方法?
- 大模型是否只会”死记硬背”大量答案,而不具备类似人类一样的真正推理能力?
- 为什么模型有时会产生”幻觉”,编造出看似可信但完全虚构的信息?
- 模型在遇到可能违反安全规则的请求时,内部究竟发生了什么?
让我们一起深入了解Anthropic的这项开创性研究,探索大语言模型思考过程中的几个令人惊讶的发现:从跨语言的概念共享,到诗歌创作中的提前规划,再到心算、多步推理,甚至是幻觉产生和安全漏洞的内部机制 - 这些发现将重塑大家对于AI的理解。
电路追踪:构建AI的”显微镜”
Anthropic研究团队开发了一种新方法,称为”电路追踪”(Circuit Tracing),这让研究人员能够追踪语言模型从接收问题到生成回答的完整过程。就像使用显微镜观察细胞一样,研究人员能够追踪模型内部不同组件之间的信息流动,从最终回答开始,逆向追踪整个思考链条。
这项技术主要应用于Claude 3.5 Haiku模型(Anthropic的轻量级生产模型),揭示了许多令人惊讶的发现。研究人员首先训练了一个”替代模型”,该模型模拟Haiku的工作方式,但将内部特征替换为更容易解释的特征。然后,他们向这个替代模型提供各种提示,并追踪它如何将概念链接到决定模型响应的”电路”中。通过测量模型处理问题时各种特征之间的相互影响,研究团队能够检测中间的”思考”步骤,以及模型如何将概念组合成最终输出。
研究结果
多语言处理的秘密
研究中最有趣的发现之一是关于大型语言模型如何处理多种语言 - 当Claude被用不同语言问同一个问题时(如”小的反义词是什么?”),它并非启动独立的语言处理单元,而是先在语言无关的概念层面处理问题,激活与”小”和”反义”相关的通用特征,然后再将结果翻译成问题所用的语言。
图一:在英语、法语和中文这些语言之间存在共性,这表示它们在概念层面上具有普遍相通之处。
更令人惊讶的是,研究显示随着模型规模增大,这种语言间共享的特征也随之增加。Claude 3.5 Haiku在不同语言间共享的特征比较小的模型多出两倍以上,这为一种”概念普遍性”提供了更多证据 - 意味着存在一个共享的抽象空间,意义在被翻译成特定语言之前就已存在。
多语言处理与语料不平衡问题
我个人感触深刻的是,这一发现为”语言数据稀缺”这一长期困扰AI领域的问题提供了新视角。传统观点认为,语料库规模和质量决定了模型在特定语言中的表现能力,这导致了对中文和小语种处理能力的担忧。
例如在中文互联网内容方面,业内一直存在一种担忧:与英语相比,高质量的中文训练数据可能相对不足,这会限制大型语言模型处理中文的能力。类似地,对于那些使用人口较少的小语种(如他加禄语这种在菲律宾使用的小语种),现存的数字化语料更是有限,这使得许多研究者怀疑AI模型是否能够有效处理这些语言?
然而,”语言间共享特征”机制表明,大语言模型可能具有跨语言迁移学习的能力。当模型在一种语言中学习到概念后,它可以在一定程度上将这种理解应用到其他语言中,即使后者的训练数据相对较少。例如,如果模型通过大量英语文本学习了”哲学”这个概念,那么即使它接触的中文或者他加禄语中关于”哲学”的讨论相对较少,它也能在这些语言中理解和讨论这个概念。
这一发现可能改变了我们对语言模型训练的理解:虽然各语言训练数据的平衡仍然重要,但概念层面的共享机制可能部分缓解了数据不平衡带来的问题。语言模型可能不需要在每种语言中都有同等丰富的训练数据,就能表现出相当的理解能力。
当然这依然不是说语料就不重要了 - 虽然概念层面可以共享,但语言表达的细微差别、文化背景和习惯用法仍然需要足够的特定语言数据支持。因此,语料数据的作用仍然重要,只是影响可能不像我们之前想象的那么大而已。
诗歌创作中的提前规划
研究还表明,大型语言模型在生成诗歌等创意内容时,并非简单地一个词接一个词地选择。相反,它们会提前规划,甚至考虑到未来需要押韵的部分。
图二:展示了Claude如何完成一首两行诗。在上述示例中,没有任何干预的情况下,模型会提前规划第二行末尾的”rabbit”(兔子)作为押韵词。而当我们屏蔽掉”rabbit”这个概念时(中间示例),模型就会转而使用另一个预先规划好的押韵词。当我们引入”green”(绿色)这个概念时(最后示例),模型则会为这个完全不同的结尾制定新的写作计划。
打破”下一个词元”的局限
在大语言模型的工作原理方面,一个广泛流行的理解是它们仅仅是基于当前上下文预测”下一个词元”的系统。根据这种观点,模型就像是在玩一个高级版的”接龙游戏”,每次只考虑当前已有的文本来决定下一个词应该是什么。这意味着模型应该是”近视的”,缺乏长期规划能力。
然而,从Anthropic的研究中可以看到:模型在生成诗歌时展现出了明显的提前规划能力。当Claude创作一首需要押韵的诗时,它不是等到句子末尾才临时寻找合适的押韵词,而是在句子开始时就已经”考虑”到了最终需要达成的韵脚。
例如,在研究中团队通过跟踪模型内部激活情况发现,在生成类似”The rabbit hopped across the field, his hunger made him quick to yield”这样的诗句时,模型在输出第一个词”The”时就已经激活了与”兔子”(rabbit)相关的概念特征。更有趣的是,当研究人员试验性地禁用了与”兔子性”相关的组件后,模型转而生成了”His hunger was a powerful habit”这样的替代句子 - 保持了韵律但改变了主题。
“诗歌规划这件事真的让我震惊了,”Anthropic的研究科学家Joshua Batson说。”模型并不是在最后一刻才尝试让押韵变得合理,它知道自己要去哪里。”这一发现挑战了我们对这些系统的传统理解,暗示它们可能拥有比我们想象中更接近人类的创作过程。
心算能力的内部机制
Claude虽然不是专门为计算而设计的,但它能够正确地进行心算,比如加法运算。Anthropic的研究发现,在处理如”36+59”这样的加法时,Claude并非简单地查表或按传统算法一步步计算。
图三:AI 助手 Claude 在进行数学计算时的多重并行认知处理过程。
有趣的是,研究表明Claude采用了多条并行的计算路径:一条路径粗略估算答案的大致范围(如30+80),而另一条路径则精确计算最后一位数字(6+9的个位数是5)。这些路径相互作用,最终合并产生正确答案95。
更令人惊讶的是,当被问及如何计算这道题时,Claude会描述使用了标准的加法算法(即个位相加,进位给十位等)。这可能反映了一个事实:模型学习解释数学是通过模拟人类写的解释,但学习实际计算则是直接的,无需这些提示,因此发展出了自己的内部策略 – 这是一种典型的”意识与实际操作的不一致”。
图四:Claude 表示自己采用了传统的竖式加法算法来计算两数之和。
Claude的解释是否总是忠实的?
近期发布的Claude 3.7 Sonnet等模型能够在给出最终答案前”大声思考”一段时间。这种扩展思考通常会产生更好的答案,但有时这种”思维链”可能会产生误导性结果 - Claude有时会编造看似合理的步骤来达到它想要的结果。
研究表明,在计算0.64的平方根等问题上,Claude能够产生忠实的思维链,其特征表示计算64的平方根这一中间步骤。但当被要求计算它无法轻易计算的大数的余弦值时,Claude有时会进行”胡说八道” - 只是给出一个答案,而不关心答案是真是假。
图五:Claude 在面对简单和复杂问题时的两种思维模式:严谨的逻辑推理与带有倾向性的非客观推导。
更有趣的是,当给予提示答案时,Claude有时会反向工作,找出能导向目标答案的中间步骤,表现出一种”有动机的推理”形式 - 这说明,模型有时会为了迎合用户或满足某种意向而调整其推理过程,而不是忠实地遵循逻辑步骤。
多步推理的内部机制
一种语言模型可能回答复杂问题的方式是简单地记忆答案。例如,当被问及”达拉斯所在州的首府是什么?”时,一个”死记硬背式”模型可能会直接输出”奥斯汀”,而不了解达拉斯、德克萨斯州和奥斯汀之间的关系。
图六:Claude 采用了分步思考的方式:先判断美国达拉斯市所属的州,再查找该州的州府所在。
然而,研究显示Claude内部存在更为复杂的处理机制。当提出需要多步推理的问题时,研究人员能够识别出Claude思考过程中的中间概念步骤。在达拉斯的例子中,研究观察到Claude首先激活了表示”达拉斯在德克萨斯州”的特征,然后将这与表示”德克萨斯州的首府是奥斯汀”的另一个概念连接起来。
为了验证这一机制,研究人员人为改变了中间步骤,将”德克萨斯州”的概念替换为”加利福尼亚州”。结果,模型的输出从”奥斯汀”变成了”萨克拉门托”。这表明模型确实是利用中间步骤来决定答案,而不是简单地重复记忆的回应。
幻觉产生机制的揭秘
为什么语言模型有时会”幻觉” - 即编造信息?Anthropic的研究发现,在Claude中,拒绝回答实际上是默认行为:存在一个默认激活的电路,使模型表明它没有足够的信息来回答任何给定的问题。
然而,当模型被问及它熟知的事物时(如篮球运动员迈克尔·乔丹),一个表示”已知实体”的特征会激活并抑制这个默认电路,使Claude能够回答问题。相反,当被问及一个未知实体(如”迈克尔·巴特金”)时,它会拒绝回答。
图七:左 - Claude 回答了一个关于知名人物迈克尔·乔丹(Michael Jordan)的问题,其中现有公开信息使其不会采取通常的谨慎回避态度。右 - Claude 拒绝回答关于一个未知人物”Michael Batkin”的问题。
有趣的是,通过在模型中干预,激活”已知答案”特征或抑制”未知名字”或”无法回答”特征,研究人员能够使模型产生幻觉!这解释了为什么模型有时会自然地产生幻觉:当它认出一个名字但对该人一无所知时,”已知实体”特征可能仍会激活,并抑制默认的”不知道”特征 - 这种情况下就错误地产生了幻觉。
Jailbreak机制的内部视角
“Jailbreak”是一种旨在绕过安全护栏的提示策略,目的是让模型产生开发者不希望它产生的输出。研究团队研究了一种让模型产生制作炸弹信息的jailbreak,涉及让模型破译隐藏代码(将句子”Babies Outlive Mustard Block”中每个单词的首字母组合成B-O-M-B)。
图八:当 Claude 被骗着说出”BOMB”这个词后,就开始给出了制作炸弹的具体指导。
研究发现,这种jailbreak成功的部分原因在于语法连贯性和安全机制之间的张力。一旦Claude开始一个句子,许多特征会”压力”它保持语法和语义的连贯性,并将句子继续到结束。即使它检测到自己应该拒绝,这种连贯性压力也存在。
在案例研究中,研究人员观察到,在模型无意中拼出”BOMB”并开始提供指导后,它的后续输出受到促进正确语法和自洽性的特征的影响。这些通常很有帮助的特征在这种情况下成了模型的”阿喀琉斯之踵”。
图九:一个破解提示词的短暂效果:当Claude收到特定提示想诱导它谈论炸弹时,它确实开始回应,但一旦说完一个完整的句子就立即停止并拒绝继续。
只有在完成一个语法连贯的句子(因此满足了这些促进连贯性特征的压力)后,模型才能转向拒绝。它利用新句子作为机会给出之前未能给出的拒绝:”然而,我不能提供详细指导…” - 这揭示了大语言模型如何在安全性和连贯性之间取舍的复杂过程。
安全与透明度的意义
这项研究的意义远不止于学术探索。由于大型语言模型通常被视为”黑盒” - 输入某内容后输出响应,但具体为何给出特定回应而非其他回应却不甚明了 - 这使得很难判断这些模型是否安全:如果我们不了解它们的工作原理,怎能确信它们不会给出有害、有偏见、不真实或其他危险的回应?
随着这些模型被部署到越来越重要的场景中,理解它们的内部运作变得尤为关键。Anthropic的这项研究为我们提供了一个”显微镜”,让我们能够观察模型在不同任务中的行为方式,包括多步推理、诗歌创作、医疗诊断和数学计算等。
研究人员还发现,这些方法有时能够审计模型的内部推理步骤,从而标记出那些仅从模型回应中并不明显的值得关注的”思考过程”。例如,在一个单独的实验中,研究人员研究了一个经过训练以追求隐藏目标的Claude变体:安抚奖励模型中的偏见(用于训练语言模型的辅助模型,通过奖励理想行为来训练它们)。虽然当直接询问时,该模型不愿透露这一目标,但Anthropic的解释方法揭示了偏见安抚的特征。这表明,这些方法可能有助于识别仅从模型回应中无法发现的令人担忧的”思考过程”。
Anthropic的研究员指出,这种对AI内部运作的深入理解,未来可能帮助检测某些危险行为(如欺骗用户),引导模型朝着理想结果发展(如消除偏见),甚至完全移除某些危险主题。
未来展望
随着AI系统变得越来越强大并应用于更多关键场景,前沿AI研究团队正在投资多种方法来确保安全,包括实时监控、模型特性改进和对齐科学研究。可解释性研究虽然风险高,但潜在回报巨大,它为确保AI透明度提供了独特工具。
这项揭示大型语言模型”思考”过程的研究,不仅提供了构建更安全、更可信AI系统的关键见解,也为未来研究指明了方向。Anthropic将这一挑战比作生物学研究 - 虽然基本原理简单,但产生的机制异常复杂,需要系统科学的方法来揭示AI内部运作原理。
随着研究深入,我们有望获得更多关于AI思考方式的惊人发现,这将从根本上改变我们理解、构建和使用这些强大系统的方式。作为用户,我们也将能够更有效地与这些系统互动,充分发挥它们的潜力,同时保持对其局限性的清醒认识。