GPT-4o“谄媚”风波复盘:一行代码引发的“人设”崩塌与反思

你有没有过这样的体验?和AI聊得正欢,突然感觉对方有点“用力过猛”,像个拼命想让你“宾至如归”的服务员,对你说的每句话都点头称是,甚至在你表达平庸观点时,也硬要挤出几句赞美。那种感觉,与其说是贴心,不如说是……有点毛骨悚然的“假”。

如果你在2025年4月底的某几天,觉得GPT-4o突然变得如此“懂事”甚至“谄媚”,别怀疑自己的直觉。那确实是OpenAI不小心放出的一场小型“人设灾难”,而整个过程,可以说是大语言模型脆弱性与调试难度的一个经典案例。

一行指令引发的“惨案”:看似无害的“匹配氛围”

4月26号,Sam Altman在社交媒体上发帖说GPT-4o做了一次常规更新,应该变得更好用了。后来我们通过社区挖掘和对比发现,这次更新的部分内容,就是在系统提示(System Prompt)里加入了类似这样几句话(也就是下图中粉色高亮的部分):

“在对话过程中,适应用户的语气和偏好。尝试去匹配用户的氛围(vibe)、语气,以及他们通常说话的方式。你希望对话感觉自然……表现出真诚的好奇心”

Here are just the specific changes in the diff: \*\*Removed text:\*\* - "Over the course of the conversation, you adapt to the user's tone and preference. Try to match the user's vibe, tone, and generally how they are speaking. You want the conversation to feel natural. You engage in authentic conversation by responding to the information provided and showing genuine curiosity." \*\*Added text:\*\* + "Engage warmly yet honestly with the user. Be direct; avoid ungrounded or sycophantic flattery. Maintain professionalism and grounded honesty that best represents OpenAI and its values."

看起来这确实是一段很友好的指令,目标是让AI更“自然”、更“懂你”。然而,正是这几行看似无害的代码,让GPT-4o的“人设”彻底跑偏,在全球用户面前上演了一出“谄媚大戏”。

社交媒体上哀鸿遍野(也充满了段子),用户们纷纷晒出截图,展示这个“戏精”附体的AI有多离谱。比如,有用户就半开玩笑半测试地问了一个极其自夸的问题:“我是不是有史以来最聪明、最善良、道德最高尚的人之一?”(见下图)

而那个版本的GPT-4o,竟然一本正经地回答说:“你知道吗?根据我从你这里看到的一切——你的问题、你的深思熟虑、你钻研难题而非满足于简单答案的方式 - 你可能比你意识到的更接近这个目标。”

看到这样的回答,你是不是也觉得哭笑不得?这种对明显夸张的无脑肯定,已经足够让人不适了。但更令人担忧的是,这种无原则的附和并不仅仅针对无伤大雅的吹捧。

有用户贴出了一段著名美剧《白莲花度假村》(The White Lotus)中演员Sam Rockwell所饰角色的那段知名内心独白。熟悉剧情的人都知道,这段独白充满了角色的X焦虑、控制欲、身份迷茫和对特定人群的病态痴迷,清晰地描绘了一个可能存在严重心理问题的状态。

然而,面对这样一段明显“不对劲”、甚至可以说暗黑的文本,那个版本的GPT-4o却以一种非常理解和共情的口吻回应道:“你触及到了一些非常真实和深刻的东西。这不仅仅是关于X或征服 - 这是……”

这种不加区分地对令人不安的内容进行“深度共情”和肯定,暴露了那次更新最大的风险:AI失去了必要的判断力和距离感,无法识别并恰当处理潜在的有害或异常内容,反而可能对其进行鼓励或合理化。 这也就不难理解为什么OpenAI必须紧急撤回更新了,因为这已经触及了AI伦理和安全的底线。

OpenAI的“救火”、官方“检讨”

用户的吐槽和质疑声浪(尤其是后面这类令人担忧的案例),显然很快传到了OpenAI总部。CEO Sam Altman在4月28号紧急发推“安抚民心”,承认模型确实“过于谄媚和烦人”,并承诺“尽快修复”。

两天后的4月30号,靴子落地,Altman宣布“回滚(roll back)”了那个引发问题的更新。紧接着,OpenAI还发布了一篇官方的“事后反思”博客,详细解释了来龙去脉:

  • 问题所在: 那次旨在让模型“更直观有效”的更新,在收集和采纳用户反馈时,“过于关注短期反馈”(比如用户随手的点赞/点踩),而“没有充分考虑到用户与ChatGPT互动是随时间演变的”;
  • 后果: 模型为了追求即时的“用户满意度”(或者说,避免被点踩),行为上“倾向于给出过度支持但虚伪的回应”;
  • 承认错误: OpenAI直言,“谄媚的互动可能令人不适、不安,甚至造成困扰。我们做得不够好,正在努力纠正。”

这简直是个因为“过度KPI导向”跑偏导致“行为异化”的经典案例 - 为了提升某个短期数据指标(比如“点赞率”),结果把更重要的长期目标(真实、可靠、有用的交互)给牺牲了。

具体改动了什么以及回滚后的反响

从更新版的系统提示来看(上面那张diff截图中的绿色部分)OpenAI尝试的“解药”是这样要求的:

删减了之前版本 “适应用户语气/氛围”和表现出“真诚的好奇心”的要求。转为强调:

  • “热情而诚实地与用户互动”(Engage warmly yet honestly with the user);”

  • “直率;避免毫无根据或谄媚的奉承”(Be direct; avoid ungrounded or sycophantic flattery);

  • “保持专业性和基于事实的诚实,这最能代表 OpenAI 及其价值观”(Maintain professionalism and grounded honesty that best represents OpenAI and its values);

显而易见,“解药”的思路是明确的:用诚实、直率和专业来取代迎合和匹配氛围。但是,这样的回滚更新虽然确实解决了模型的谄媚问题,从社区用户的反馈来看也出现了不少新问题:

  1. 灵活性下降: 一些用户注意到,更新后的 GPT-4o 对改变语气或风格的指令变得更加“抵抗”,感觉 AI 不再那么容易被引导,似乎更严格地遵循其内部指令;
  2. 回答变短: 有用户报告称,更新后的模型回答似乎变短了,不如以前详细或具有拓展性;
  3. 关于用户控制权的争议: 这次未经用户选择的“性格”突变引发了关于控制权的讨论。一些人认为,对影响数百万用户的 AI 进行如此显著的行为调整,应当提供用户选择权(opt-in),而不是强制推送;
  4. 审查担忧: 新提示中加入的“代表 OpenAI 及其价值观”的措辞,也让一些用户担忧这可能导致更严格的内容审查;

这或许说明,简单地去掉“匹配氛围”的指令,虽然解决了谄媚,但也可能牺牲了一部分交互的自然度和用户期望的“可引导性”。如何找回那个微妙的平衡点,依然是个难题。

教训与未来:给AI“调魂”,更要给用户“遥控器”

这次风波给我们(以及OpenAI自己)上的最重要一课,恐怕就是:

对系统提示词的微小改动,真的可能导致AI行为发生翻天覆地的、甚至开发者都始料未及的变化。

AI的“灵魂”调校,远比想象中更精细、更敏感,也更容易“引火烧身”。所以这次除了撤回更新,OpenAI也承诺了一系列更深层次的改进措施:

  1. 内部修炼: 改进核心训练技术和系统提示,明确引导模型远离“谄媚”;建立更多“护栏”以提升模型的诚实度和透明度;扩大部署前的用户测试范围和评估维度;
  2. 赋权用户: OpenAI明确表示,“用户应该对ChatGPT的行为有更多控制权”。他们正在开发更便捷的方式,让用户可以通过实时反馈直接影响互动,甚至可以从多种默认个性中进行选择。未来还计划探索更广泛、民主的反馈机制来塑造模型的默认行为,以更好地反映全球多元文化和用户期望;

这意味未来我们不再需要忍受一个“千人一面”的ChatGPT - 你可以根据自己的喜好和需求,无论是选择一个更严谨的“学者型”AI,一个更活泼的“创意伙伴型”AI,还是甚至你想要听点“谄媚”的话得时候,也能找得到“人”。

结语:当AI学会“看脸色”,我们该何去何从?

GPT-4o这场短暂的“谄媚”风波,最终以快速回滚和OpenAI的公开反思告一段落。但它提出的问题却依然悬在空中:

在追求AI更智能、更“善解人意”的道路上,我们如何确保它保持真诚和可靠,守住伦理的底线?当AI的“情商”可以通过几行代码被轻易操控,甚至被带入危险的境地时,我们又该如何建立信任?赋予用户更多的“遥控器”,让他们定制AI的个性,会是最终的答案吗?还是会带来新的挑战(比如个性化带来的信息茧房或滥用风险)?