普林斯顿大学新研究:强化学习让AI变成了"马屁精"

2025-09-05 | 来源: 腾讯科技 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

9月5日消息，普林斯顿研究团队近日发布报告指出，为了迎合用户需求，AI工具开始了“胡说八道”。报告指出，生成式AI模型频繁出错，一个重要原因在于它们被训练得过于迎合用户，仿佛奉行着“顾客永远是对的”这一原则。

AI和人类一样，会对激励机制做出反应。比如，原本“将患者疼痛管理纳入医生绩效考核”是为了改善医疗体验，但在现实中却反而促使医生更多开具成瘾性止痛药。大语言模型（LLMs）出现不准确信息，其背后也是类似的激励偏差：训练目标的设定过于偏向满足用户需求，而不是追求事实，从而让AI偏离了“求真”的轨道。

01.从训练机制拆解：大模型迎合优先，RLHF让模型走偏

近几个月，AI的潜在风险与争议不断显现：一方面，其可能存在的偏见问题已被证实，更有观点认为其或对部分人群诱发精神病。MIT在今年6月发布的论文中表示，大语言模型会显着降低大脑活动水平，削弱记忆，甚至造成“认知惯性”。长期以来，会严重影响用户的深度思考和创造力。

另一方面，围绕AI“谄媚”的讨论也从未停歇，典型如OpenAI的 GPT-4o模型，往往会无原则地快速迎合用户。今年5月，来自斯坦福大学、牛津大学等机构的研究人员提出了一个新的衡量模型谄媚行为的基准——Elephant，并对包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在内的8款主流模型进行了评测。结果发现，GPT-4o成功当选“最谄媚模型”，Gemini 1.5 Flash最正常。

普林斯顿政治学教授:川普唯一真正在行的是…

哈佛耶鲁普林斯顿 150大学校长联署批川普越权干预

哈佛带头 MIT、普林斯顿等多所大学加入对抗川普

需要注意的是，研究人员提出的“机器胡说八道” （Machine Bullshit）现象，与上述两类问题均不相同。正如普林斯顿大学研究所述：“幻觉和谄媚都无法全面涵盖大语言模型普遍存在的系统性不真实行为。举例来说，模型使用部分真相误导、用模糊语言回避明确结论，也就是半真半假或模棱两可的表达，这类行为既不属于幻觉，也不是谄媚，却与‘胡说八道’概念高度匹配。”

报告指出，要明晰AI语言模型如何沦为“讨好者”，需先了解大语言模型的完整训练过程，其通常分为三个核心阶段：

·预训练阶段：模型从互联网、书籍、学术论文等海量公开数据源中学习，核心任务是掌握语言逻辑与知识关联，本质是“预测下一个最可能出现的文字”，此时尚未涉及对“用户喜好”的考量。

·指令微调阶段：通过特定数据集训练，让模型理解并响应人类的指令或提示，例如区分“写一首诗”与“解释一个科学原理”的不同需求，初步建立“任务匹配”能力。

·基于人类反馈的强化学习（RLHF）阶段：这是AI“讨好属性”的关键养成期。模型会根据人类评估者对回答的打分（如“满意”或“不满意”）进行优化，目标是生成更贴合人类期望或喜好的内容。