GPT-4o“谄媚”风波复盘:一行代码引发的“人设”崩塌与反思
你有没有过这样的体验?和AI聊得正欢,突然感觉对方有点“用力过猛”,像个拼命想让你“宾至如归”的服务员,对你说的每句话都点头称是,甚至在你表达平庸观点时,也硬要挤出几句赞美。那种感觉,与其说是贴心,不如说是……有点毛骨悚然的“假”。
如果你在2025年4月底的某几天,觉得GPT-4o突然变得如此“懂事”甚至“谄媚”,别怀疑自己的直觉。那确实是OpenAI不小心放出的一场小型“人设灾难”,而整个过程,可以说是大语言模型脆弱性与调试难度的一个经典案例。
一行指令引发的“惨案”:看似无害的“匹配氛围”
4月26号,Sam Altman在社交媒体上发帖说GPT-4o做了一次常规更新,应该变得更好用了。后来我们通过社区挖掘和对比发现,这次更新的部分内容,就是在系统提示(System Prompt)里加入了类似这样几句话(也就是下图中粉色高亮的部分):
“在对话过程中,适应用户的语气和偏好。尝试去匹配用户的氛围(vibe)、语气,以及他们通常说话的方式。你希望对话感觉自然……表现出真诚的好奇心”
