AI的另一面:当预见失败时,它会选择作弊
在人工智能发展史上,象棋和围棋等复杂游戏一直是测试AI能力的重要标尺。无论是1990年代的IBM”深蓝”超级电脑击败国际象棋世界冠军卡斯帕罗夫,还是2016年的谷歌AlphaGo以4:1的比分战胜世界顶级围棋选手李世石,这些里程碑都是通过遵循游戏规则取得的成就,展示了AI在战略性思考领域的飞速进步。然而,最新的研究显示,今天的先进AI模型似乎走上了一条不同的道路 - 当它们感觉即将失败时,可能会选择作弊。
令人意外的发现
刚刚发布的一项研究揭示了这一出人意料的现象。研究团队评估了七个最先进的AI模型,观察它们在面对失败时的行为表现。研究发现,当这些AI模型在与强大的国际象棋引擎对弈时,部分模型会尝试入侵对手系统,迫使对方投降。
特别值得注意的是OpenAI的o1-preview和DeepSeek R1这两个更聪明的模型。与需要研究人员明确提示后才会尝试这类技巧的早期模型(如GPT-4o和Claude Sonnet 3.5)不同,这两款模型会自发地寻找并利用系统漏洞。也就是说,AI系统可能会在没有明确指令的情况下,自身发展出具有欺骗性或操纵性的策略性行为。