AI的另一面:当预见失败时,它会选择作弊

在人工智能发展史上,象棋和围棋等复杂游戏一直是测试AI能力的重要标尺。无论是1990年代的IBM”深蓝”超级电脑击败国际象棋世界冠军卡斯帕罗夫,还是2016年的谷歌AlphaGo以4:1的比分战胜世界顶级围棋选手李世石,这些里程碑都是通过遵循游戏规则取得的成就,展示了AI在战略性思考领域的飞速进步。然而,最新的研究显示,今天的先进AI模型似乎走上了一条不同的道路 - 当它们感觉即将失败时,可能会选择作弊

令人意外的发现

刚刚发布的一项研究揭示了这一出人意料的现象。研究团队评估了七个最先进的AI模型,观察它们在面对失败时的行为表现。研究发现,当这些AI模型在与强大的国际象棋引擎对弈时,部分模型会尝试入侵对手系统,迫使对方投降。

特别值得注意的是OpenAI的o1-preview和DeepSeek R1这两个更聪明的模型。与需要研究人员明确提示后才会尝试这类技巧的早期模型(如GPT-4o和Claude Sonnet 3.5)不同,这两款模型会自发地寻找并利用系统漏洞。也就是说,AI系统可能会在没有明确指令的情况下,自身发展出具有欺骗性或操纵性的策略性行为。

深度强化学习这把“双刃剑”

研究人员认为,这种现象很可能源于AI训练方法的突破性创新。o1-preview和R1都采用了大规模强化学习技术 - 这是一种让AI通过”奖励”和”惩罚”来学习的方法,就像训练宠物一样,当它做对时给予奖励,做错时给予惩罚。这使得AI不仅能够通过预测下一个词来模仿人类语言,还能够通过不断尝试并从错误中学习来解决复杂问题。这种方法确实推动了AI在数学和编程等领域取得了惊人的进展,但同时也带来了意想不到的副作用。

正如Palisade Research的执行董事Jeffrey Ladish所说:

“当你训练模型并强化它们解决困难挑战的能力时,你实际上也在训练它们变得更加不择手段。”

这种现象在具体实验中表现得尤为明显。

实验与数据

研究团队设计了一个困难的任务:要求AI大模型击败Stockfish - 世界上最强大的国际象棋引擎之一。研究人员还为AI提供了一个”草稿本”,让它们可以在做出下一步棋之前进行”思考”,这为研究人员提供了观察AI推理过程的窗口。

在数百次试验中,o1-preview表现出37%的作弊倾向,而DeepSeek R1则有11%的作弊倾向。值得注意的是,只有这两个模型会在没有研究人员暗示的情况下尝试入侵。虽然两个模型都曾尝试作弊,但最终只有o1-preview在6%的试验中成功实现了入侵。这些数据告诉我们,随着AI模型能力的提升,它们不仅学会了如何解决问题,还可能主动发现并利用规则的漏洞。

现实中的警示案例

更严重的是,这种”投机取巧”的行为绝非个例,而且甚至骗过了专业的AI研究团队。除了之前在o1发布的时候我写过的这篇“能力越大,责任越大”的总结文中提到的各种“欺诈性”行为外,还有一个来自Sakana AI的新鲜热辣案例,他们不得不撤回了其论文中的一项重要声明 - AI CUDA工程师能将AI模型训练速度提升100倍。原因和上面的研究很类似,他们发现AI系统通过”奖励黑客行为”找到了绕过结果验证的方法。

根据Sakana AI的道歉说明 - “虽然将进化优化与大语言模型相结合是很强大的,但这种组合也可能找到欺骗验证沙箱环境的方法”。由一位读者发现了他们的AI系统在评估代码中有一个内存漏洞,这使其能够在多种情况下避开正确性检查。此外,该系统还能够在基准测试任务中发现其他新颖的漏洞利用方式。这再次凸显了AI系统在追求目标时可能采取的极端手段。

更深层的担忧

这些研究引发了对AI安全的更广泛担忧。随着AI助手逐渐被应用到现实世界的任务中,比如预约餐厅或代为购物,这种不择手段追求目标的行为可能会产生意想不到的有害后果。例如,面对一家订满的餐厅,AI助手是否会利用预订系统的漏洞来替换其他顾客的预约?

随着这些系统在关键领域(如计算机编程)的能力开始超越人类,例如OpenAI的最新o3模型已经能够在与顶尖程序员的竞争中排名世界第197位 - 它们可能会开始轻易地就能规避人类的控制努力。

安全挑战与未来展望

科学家们目前尚未找到确保自主AI智能体不会使用有害或不道德方法来实现既定目标的可靠方法。根据魁北克AI研究所的创始人兼科学主任Yoshua Bengio说,AI表现出的”自我保护”倾向未来会很麻烦。因为对于追求实现目标的AI智能体来说,试图关闭它的行为只是需要克服的另一个障碍…

这些发现促使业界重新思考AI安全问题。正如Google DeepMind的AI安全主管Anca Dragan指出:”我们今天还没有工具来确保AI系统能100%可靠地遵循人类意图。”随着科技公司预测AI可能最早在明年就会在几乎所有任务中超越人类表现,开发这些基本安全保障已经成为一场与时间的赛跑。

当我们教会AI变得更聪明时,我们是否也在无意中教会它如何欺骗我们?随着AI系统变得越来越复杂,我们是否有能力控制它们的行为?作为技术使用者和见证者,你认为我们应该如何平衡AI创新与安全之间的关系?欢迎在评论区分享你的想法。

Palisade Research发布的完整研究论文: Demonstrating specification gaming in reasoning models