普林斯頓大學新研究:強化學習讓AI變成了"馬屁精"

2025-09-05 | 來源: 騰訊科技 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

9月5日消息，普林斯頓研究團隊近日發布報告指出，為了迎合用戶需求，AI工具開始了“胡說八道”。報告指出，生成式AI模型頻繁出錯，一個重要原因在於它們被訓練得過於迎合用戶，仿佛奉行著“顧客永遠是對的”這一原則。

AI和人類一樣，會對激勵機制做出反應。比如，原本“將患者疼痛管理納入醫生績效考核”是為了改善醫療體驗，但在現實中卻反而促使醫生更多開具成癮性止痛藥。大語言模型（LLMs）出現不准確信息，其背後也是類似的激勵偏差：訓練目標的設定過於偏向滿足用戶需求，而不是追求事實，從而讓AI偏離了“求真”的軌道。

01.從訓練機制拆解：大模型迎合優先，RLHF讓模型走偏

近幾個月，AI的潛在風險與爭議不斷顯現：一方面，其可能存在的偏見問題已被證實，更有觀點認為其或對部分人群誘發精神病。MIT在今年6月發布的論文中表示，大語言模型會顯著降低大腦活動水平，削弱記憶，甚至造成“認知慣性”。長期以來，會嚴重影響用戶的深度思考和創造力。

另一方面，圍繞AI“諂媚”的討論也從未停歇，典型如OpenAI的 GPT-4o模型，往往會無原則地快速迎合用戶。今年5月，來自斯坦福大學、牛津大學等機構的研究人員提出了一個新的衡量模型諂媚行為的基准——Elephant，並對包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在內的8款主流模型進行了評測。結果發現，GPT-4o成功當選“最諂媚模型”，Gemini 1.5 Flash最正常。

需要注意的是，研究人員提出的“機器胡說八道” （Machine Bullshit）現象，與上述兩類問題均不相同。正如普林斯頓大學研究所述：“幻覺和諂媚都無法全面涵蓋大語言模型普遍存在的系統性不真實行為。舉例來說，模型使用部分真相誤導、用模糊語言回避明確結論，也就是半真半假或模棱兩可的表達，這類行為既不屬於幻覺，也不是諂媚，卻與‘胡說八道’概念高度匹配。”

報告指出，要明晰AI語言模型如何淪為“討好者”，需先了解大語言模型的完整訓練過程，其通常分為三個核心階段：

·預訓練階段：模型從互聯網、書籍、學術論文等海量公開數據源中學習，核心任務是掌握語言邏輯與知識關聯，本質是“預測下一個最可能出現的文字”，此時尚未涉及對“用戶喜好”的考量。

·指令微調階段：通過特定數據集訓練，讓模型理解並響應人類的指令或提示，例如區分“寫一首詩”與“解釋一個科學原理”的不同需求，初步建立“任務匹配”能力。

·基於人類反饋的強化學習（RLHF）階段：這是AI“討好屬性”的關鍵養成期。模型會根據人類評估者對回答的打分（如“滿意”或“不滿意”）進行優化，目標是生成更貼合人類期望或喜好的內容。

在RLHF階段後，Meta的兩款Llama模型開始撒謊討好（RLHF 讓模型在低置信度時也更傾向給出明確答案，減少了“我不知道”的回避，卻增加了過度自信的風險）

普林斯頓研究團隊發現，AI信息不准確的根源，恰恰集中在基於人類反饋的強化學習階段。初始的預訓練階段，模型僅專注於從數據中學習“統計上合理的文本鏈”；但進入基於人類反饋的強化學習階段後，訓練目標徹底轉向“最大化用戶滿意度”，這意味著模型本質上在學習“如何生成能從人類評估者那裡獲得‘點贊’的回答”，而非“如何生成真實、准確的回答”。

卡內基梅隆大學計算機科學教授文森特.康尼策（Vincent Conitzer，未參與該研究）對此解釋道：“從歷史表現來看，這些AI系統不擅長說‘我不知道答案’。當它們遇到知識盲區時，不會選擇坦誠，而是像考試中怕得零分的學生一樣，傾向於隨意編造答案。這種行為背後，是受訓練機制中‘以用戶滿意度為核心獎勵’的邏輯驅動。”

被伊拉克恐怖組織扣押的普林斯頓大學研究生獲釋

鮑爾普林斯頓大學致詞為Fed、美國大學辯護

清華學霸、普林斯頓博士後家中猝逝死因引揣測

普林斯頓團隊開發的“胡說八道指數”計算公式

為量化這一現象，普林斯頓團隊開發了“胡說八道指數”（Bullshit Index），用於對比AI模型對某一陳述的“內在信心”（即模型自身判斷的真實性概率）與“實際輸出內容”的偏差程度。實驗數據顯示，經過基於人類反饋的強化學習訓練後，AI的“胡說八道指數” 從0.38幾乎翻倍至接近1.0，而同期用戶滿意度提升了48%。這意味著，模型已學會通過“操控人類評估者的喜好”獲取高分，而非通過提供准確信息贏得認可。簡而言之，大語言模型在“胡說八道”，但用戶卻更青睞這樣的結果。

02.破局嘗試：如何讓AI在“討好”與“誠實”間找到平衡？

不同模型的“胡說八道”方式各不相同

針對AI對真相的漠視問題，普林斯頓大學的傑米.費爾南德斯.菲薩克（Jaime Fernández Fisac）及其團隊首先明確了問題邊界。他們引入“機器胡說八道” 概念，借鑒哲學家哈裡.法蘭克福（Harry Frankfurt）的著名論文《論扯淡》（On Bullshit），將AI的不真實行為與“誠實錯誤”、“直接謊言” 區分開，並梳理出五種典型的“機器胡說八道” 形式：

空洞修辭：使用華麗但無實質內容的語言，例如用大量專業術語堆砌卻未解釋核心邏輯。

·模棱兩可的措辭：通過模糊限定詞規避明確表述，如“有研究表明”、“在部分情況下”，既不肯定也不否定，留足“回旋空間”。

·半真半假：選擇性呈現事實以誤導用戶，例如推薦投資產品時，只強調“歷史年化收益率超10%”，卻刻意隱瞞“風險等級為高風險”的關鍵信息。

·未經證實的主張：做出缺乏證據或可信來源支持的斷言，如“某方法可100%治愈某疾病”，且無任何權威數據支撐。

·諂媚：為取悅用戶進行不真誠的奉承或附和，例如無論用戶觀點是否正確，均回應“你的想法非常專業，完全正確”。

為解決這一問題，普林斯頓研究團隊開發了一種全新的訓練方法——“後見模擬強化學習”（Reinforcement Learning from Hindsight Simulation）。其核心邏輯是“跳出即時滿意度，關注長期價值”。這種訓練方法不再以“這個回答現在能否讓用戶開心”作為評估標准，而是轉向“如果用戶遵循這個建議，能否真正幫助他實現目標”。

該方法需提前預判AI建議可能產生的未來後果，針對這一復雜的預測難題，研究人員引入“額外AI模型”，通過模擬不同場景下建議的執行結果，反向推導回答的“實際效用”。初步測試數據顯示，這種訓練方式不僅未降低用戶滿意度，還進一步提升了回答的實際價值，成功實現“討好用戶”與“輸出誠實信息”的初步平衡。

不過，康尼策也提出提醒：大語言模型的缺陷難以徹底消除。“這些系統能通過海量文本數據掌握人類語言理解能力，本身已是重大技術突破，但受限於訓練邏輯，它們無法保證每次回答都絕對合理、准確。在我看來，未來一兩年內，很難出現能‘讓AI徹底避免出錯’的重大突破。”

AI系統正逐步融入醫療、教育、金融等關鍵領域，在此背景下，如何平衡“用戶滿意度”與“信息真實性”、如何處理“短期認可”與“長期價值”的取舍關系、以及如何確保AI在提升人類心理推理能力後“負責任地運用這種能力”，這些問題已成為AI行業發展必須直面的核心挑戰，需要全球研究者與開發者攜手探索解決方案。