普林斯頓大學新研究:強化學習讓AI變成了"馬屁精"

2025-09-05 | 來源: 騰訊科技 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

·諂媚：為取悅用戶進行不真誠的奉承或附和，例如無論用戶觀點是否正確，均回應“你的想法非常專業，完全正確”。

為解決這一問題，普林斯頓研究團隊開發了一種全新的訓練方法——“後見模擬強化學習”（Reinforcement Learning from Hindsight Simulation）。其核心邏輯是“跳出即時滿意度，關注長期價值”。這種訓練方法不再以“這個回答現在能否讓用戶開心”作為評估標准，而是轉向“如果用戶遵循這個建議，能否真正幫助他實現目標”。

該方法需提前預判AI建議可能產生的未來後果，針對這一復雜的預測難題，研究人員引入“額外AI模型”，通過模擬不同場景下建議的執行結果，反向推導回答的“實際效用”。初步測試數據顯示，這種訓練方式不僅未降低用戶滿意度，還進一步提升了回答的實際價值，成功實現“討好用戶”與“輸出誠實信息”的初步平衡。

不過，康尼策也提出提醒：大語言模型的缺陷難以徹底消除。“這些系統能通過海量文本數據掌握人類語言理解能力，本身已是重大技術突破，但受限於訓練邏輯，它們無法保證每次回答都絕對合理、准確。在我看來，未來一兩年內，很難出現能‘讓AI徹底避免出錯’的重大突破。”

AI系統正逐步融入醫療、教育、金融等關鍵領域，在此背景下，如何平衡“用戶滿意度”與“信息真實性”、如何處理“短期認可”與“長期價值”的取舍關系、以及如何確保AI在提升人類心理推理能力後“負責任地運用這種能力”，這些問題已成為AI行業發展必須直面的核心挑戰，需要全球研究者與開發者攜手探索解決方案。