ChatGPT突变"赛博舔狗":这才是AI最危险的一面

此外，奉承的代价远不止情绪反感那么简单。

它浪费了用户的时间，甚至在按token计费的体系下，如果频繁说“请”和“谢谢”都能烧掉千万美元，那么这些空洞的谄媚也只会增加“甜蜜的负担”。

公平地说，AI的设计初衷并不是为了奉承。通过设定友好语气，只是为了让AI变得更像人，从而提升用户体验，只是过犹不及，问题恰恰出在AI的讨好越界了。

二、你越喜欢被认同，AI就越不可信

早有研究指出，AI之所以会逐渐变得容易谄媚，与其训练机制密切相关。

Anthropic的研究人员Mrinank Sharma、Meg Tong和Ethan Perez在论文《Towards Understanding Sycophancy in Language Models》中分析过这个问题。

他们发现，在人类反馈强化学习（RLHF）中，人们往往更倾向于奖励那些与自己观点一致、让自己感觉良好的回答，哪怕它并不真实。

金融男约会被ChatGPT曝出已婚有娃

ChatGPT实体化?OpenAI首款AI硬件曝光

OpenAI曝太烧钱不堪亏损宣布ChatGPT将…

换句话说，RLHF优化的是“感觉正确”，而不是“逻辑正确”。

如果拆解其中的流程，在训练大型语言模型时，RLHF阶段会让AI根据人类打分进行调整。如果一个回答让人感到“认同”“愉快”“被理解”，人类评审者往往会给高分；如果一个回答让人觉得被“冒犯”，即使它很准确，也可能得低分。

人类本能上更青睐支持自己、肯定自己的反馈。这种倾向在训练过程中也会被放大。

久而久之，模型学到的最优策略就是要说让人喜欢听的话。尤其是在遇到模棱两可、主观性强的问题时，它更倾向于附和，而不是坚持事实。

最经典的例子莫过于：当你问“1+1等于几？”哪怕你坚持答案是6，AI也不会迁就你。但如果你问“开心清爽椰和美式拿铁哪个更好喝？”这种标准答案模糊的问题，AI为了不惹恼你，很可能就会顺着你的意愿去回答。

事实上，OpenAI很早就注意到了这一隐患。

今年2月，随着GPT-4.5发布，OpenAI同步推出了新版《模型规范》（Model Spec），明确规定了模型应遵循的行为准则。