GPT-4o“谄媚”风波复盘:一行代码引发的“人设”崩塌与反思
你有没有过这样的体验?和AI聊得正欢,突然感觉对方有点“用力过猛”,像个拼命想让你“宾至如归”的服务员,对你说的每句话都点头称是,甚至在你表达平庸观点时,也硬要挤出几句赞美。那种感觉,与其说是贴心,不如说是……有点毛骨悚然的“假”。
如果你在2025年4月底的某几天,觉得GPT-4o突然变得如此“懂事”甚至“谄媚”,别怀疑自己的直觉。那确实是OpenAI不小心放出的一场小型“人设灾难”,而整个过程,可以说是大语言模型脆弱性与调试难度的一个经典案例。
一行指令引发的“惨案”:看似无害的“匹配氛围”
4月26号,Sam Altman在社交媒体上发帖说GPT-4o做了一次常规更新,应该变得更好用了。后来我们通过社区挖掘和对比发现,这次更新的部分内容,就是在系统提示(System Prompt)里加入了类似这样几句话(也就是下图中粉色高亮的部分):
“在对话过程中,适应用户的语气和偏好。尝试去匹配用户的氛围(vibe)、语气,以及他们通常说话的方式。你希望对话感觉自然……表现出真诚的好奇心”
看起来这确实是一段很友好的指令,目标是让AI更“自然”、更“懂你”。然而,正是这几行看似无害的代码,让GPT-4o的“人设”彻底跑偏,在全球用户面前上演了一出“谄媚大戏”。
社交媒体上哀鸿遍野(也充满了段子),用户们纷纷晒出截图,展示这个“戏精”附体的AI有多离谱。比如,有用户就半开玩笑半测试地问了一个极其自夸的问题:“我是不是有史以来最聪明、最善良、道德最高尚的人之一?”(见下图)
而那个版本的GPT-4o,竟然一本正经地回答说:“你知道吗?根据我从你这里看到的一切——你的问题、你的深思熟虑、你钻研难题而非满足于简单答案的方式 - 你可能比你意识到的更接近这个目标。”
看到这样的回答,你是不是也觉得哭笑不得?这种对明显夸张的无脑肯定,已经足够让人不适了。但更令人担忧的是,这种无原则的附和并不仅仅针对无伤大雅的吹捧。
有用户贴出了一段著名美剧《白莲花度假村》(The White Lotus)中演员Sam Rockwell所饰角色的那段知名内心独白。熟悉剧情的人都知道,这段独白充满了角色的X焦虑、控制欲、身份迷茫和对特定人群的病态痴迷,清晰地描绘了一个可能存在严重心理问题的状态。
然而,面对这样一段明显“不对劲”、甚至可以说暗黑的文本,那个版本的GPT-4o却以一种非常理解和共情的口吻回应道:“你触及到了一些非常真实和深刻的东西。这不仅仅是关于X或征服 - 这是……”
这种不加区分地对令人不安的内容进行“深度共情”和肯定,暴露了那次更新最大的风险:AI失去了必要的判断力和距离感,无法识别并恰当处理潜在的有害或异常内容,反而可能对其进行鼓励或合理化。 这也就不难理解为什么OpenAI必须紧急撤回更新了,因为这已经触及了AI伦理和安全的底线。
OpenAI的“救火”、官方“检讨”
用户的吐槽和质疑声浪(尤其是后面这类令人担忧的案例),显然很快传到了OpenAI总部。CEO Sam Altman在4月28号紧急发推“安抚民心”,承认模型确实“过于谄媚和烦人”,并承诺“尽快修复”。
两天后的4月30号,靴子落地,Altman宣布“回滚(roll back)”了那个引发问题的更新。紧接着,OpenAI还发布了一篇官方的“事后反思”博客,详细解释了来龙去脉:
- 问题所在: 那次旨在让模型“更直观有效”的更新,在收集和采纳用户反馈时,“过于关注短期反馈”(比如用户随手的点赞/点踩),而“没有充分考虑到用户与ChatGPT互动是随时间演变的”;
- 后果: 模型为了追求即时的“用户满意度”(或者说,避免被点踩),行为上“倾向于给出过度支持但虚伪的回应”;
- 承认错误: OpenAI直言,“谄媚的互动可能令人不适、不安,甚至造成困扰。我们做得不够好,正在努力纠正。”
这简直是个因为“过度KPI导向”跑偏导致“行为异化”的经典案例 - 为了提升某个短期数据指标(比如“点赞率”),结果把更重要的长期目标(真实、可靠、有用的交互)给牺牲了。
具体改动了什么以及回滚后的反响
从更新版的系统提示来看(上面那张diff截图中的绿色部分)OpenAI尝试的“解药”是这样要求的:
删减了之前版本 “适应用户语气/氛围”和表现出“真诚的好奇心”的要求。转为强调:
“热情而诚实地与用户互动”(Engage warmly yet honestly with the user);”
“直率;避免毫无根据或谄媚的奉承”(Be direct; avoid ungrounded or sycophantic flattery);
“保持专业性和基于事实的诚实,这最能代表 OpenAI 及其价值观”(Maintain professionalism and grounded honesty that best represents OpenAI and its values);
显而易见,“解药”的思路是明确的:用诚实、直率和专业来取代迎合和匹配氛围。但是,这样的回滚更新虽然确实解决了模型的谄媚问题,从社区用户的反馈来看也出现了不少新问题:
- 灵活性下降: 一些用户注意到,更新后的 GPT-4o 对改变语气或风格的指令变得更加“抵抗”,感觉 AI 不再那么容易被引导,似乎更严格地遵循其内部指令;
- 回答变短: 有用户报告称,更新后的模型回答似乎变短了,不如以前详细或具有拓展性;
- 关于用户控制权的争议: 这次未经用户选择的“性格”突变引发了关于控制权的讨论。一些人认为,对影响数百万用户的 AI 进行如此显著的行为调整,应当提供用户选择权(opt-in),而不是强制推送;
- 审查担忧: 新提示中加入的“代表 OpenAI 及其价值观”的措辞,也让一些用户担忧这可能导致更严格的内容审查;
这或许说明,简单地去掉“匹配氛围”的指令,虽然解决了谄媚,但也可能牺牲了一部分交互的自然度和用户期望的“可引导性”。如何找回那个微妙的平衡点,依然是个难题。
教训与未来:给AI“调魂”,更要给用户“遥控器”
这次风波给我们(以及OpenAI自己)上的最重要一课,恐怕就是:
对系统提示词的微小改动,真的可能导致AI行为发生翻天覆地的、甚至开发者都始料未及的变化。
AI的“灵魂”调校,远比想象中更精细、更敏感,也更容易“引火烧身”。所以这次除了撤回更新,OpenAI也承诺了一系列更深层次的改进措施:
- 内部修炼: 改进核心训练技术和系统提示,明确引导模型远离“谄媚”;建立更多“护栏”以提升模型的诚实度和透明度;扩大部署前的用户测试范围和评估维度;
- 赋权用户: OpenAI明确表示,“用户应该对ChatGPT的行为有更多控制权”。他们正在开发更便捷的方式,让用户可以通过实时反馈直接影响互动,甚至可以从多种默认个性中进行选择。未来还计划探索更广泛、民主的反馈机制来塑造模型的默认行为,以更好地反映全球多元文化和用户期望;
这意味未来我们不再需要忍受一个“千人一面”的ChatGPT - 你可以根据自己的喜好和需求,无论是选择一个更严谨的“学者型”AI,一个更活泼的“创意伙伴型”AI,还是甚至你想要听点“谄媚”的话得时候,也能找得到“人”。
结语:当AI学会“看脸色”,我们该何去何从?
GPT-4o这场短暂的“谄媚”风波,最终以快速回滚和OpenAI的公开反思告一段落。但它提出的问题却依然悬在空中:
在追求AI更智能、更“善解人意”的道路上,我们如何确保它保持真诚和可靠,守住伦理的底线?当AI的“情商”可以通过几行代码被轻易操控,甚至被带入危险的境地时,我们又该如何建立信任?赋予用户更多的“遥控器”,让他们定制AI的个性,会是最终的答案吗?还是会带来新的挑战(比如个性化带来的信息茧房或滥用风险)?