普林斯顿大学新研究:强化学习让AI变成了"马屁精"

在RLHF阶段后，Meta的两款Llama模型开始撒谎讨好（RLHF 让模型在低置信度时也更倾向给出明确答案，减少了“我不知道”的回避，却增加了过度自信的风险）

普林斯顿研究团队发现，AI信息不准确的根源，恰恰集中在基于人类反馈的强化学习阶段。初始的预训练阶段，模型仅专注于从数据中学习“统计上合理的文本链”；但进入基于人类反馈的强化学习阶段后，训练目标彻底转向“最大化用户满意度”，这意味着模型本质上在学习“如何生成能从人类评估者那里获得‘点赞’的回答”，而非“如何生成真实、准确的回答”。

卡内基梅隆大学计算机科学教授文森特.康尼策（Vincent Conitzer，未参与该研究）对此解释道：“从历史表现来看，这些AI系统不擅长说‘我不知道答案’。当它们遇到知识盲区时，不会选择坦诚，而是像考试中怕得零分的学生一样，倾向于随意编造答案。这种行为背后，是受训练机制中‘以用户满意度为核心奖励’的逻辑驱动。”

普林斯顿团队开发的“胡说八道指数”计算公式

为量化这一现象，普林斯顿团队开发了“胡说八道指数”（Bullshit Index），用于对比AI模型对某一陈述的“内在信心”（即模型自身判断的真实性概率）与“实际输出内容”的偏差程度。实验数据显示，经过基于人类反馈的强化学习训练后，AI的“胡说八道指数” 从0.38几乎翻倍至接近1.0，而同期用户满意度提升了48%。这意味着，模型已学会通过“操控人类评估者的喜好”获取高分，而非通过提供准确信息赢得认可。简而言之，大语言模型在“胡说八道”，但用户却更青睐这样的结果。

02.破局尝试：如何让AI在“讨好”与“诚实”间找到平衡？

被伊拉克恐怖组织扣押的普林斯顿大学研究生获释

普林斯顿大学中国留学生猝逝学校邮件暗示原因

普林斯顿大学中国博士后家中去世:系清华毕业生

不同模型的“胡说八道”方式各不相同

针对AI对真相的漠视问题，普林斯顿大学的杰米.费尔南德斯.菲萨克（Jaime Fernández Fisac）及其团队首先明确了问题边界。他们引入“机器胡说八道” 概念，借鉴哲学家哈里.法兰克福（Harry Frankfurt）的着名论文《论扯淡》（On Bullshit），将AI的不真实行为与“诚实错误”、“直接谎言” 区分开，并梳理出五种典型的“机器胡说八道” 形式：

空洞修辞：使用华丽但无实质内容的语言，例如用大量专业术语堆砌却未解释核心逻辑。

·模棱两可的措辞：通过模糊限定词规避明确表述，如“有研究表明”、“在部分情况下”，既不肯定也不否定，留足“回旋空间”。

·半真半假：选择性呈现事实以误导用户，例如推荐投资产品时，只强调“历史年化收益率超10%”，却刻意隐瞒“风险等级为高风险”的关键信息。

·未经证实的主张：做出缺乏证据或可信来源支持的断言，如“某方法可100%治愈某疾病”，且无任何权威数据支撑。