| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

普林斯頓大學新研究:強化學習讓AI變成了"馬屁精"


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
在RLHF階段後,Meta的兩款Llama模型開始撒謊討好(RLHF 讓模型在低置信度時也更傾向給出明確答案,減少了“我不知道”的回避,卻增加了過度自信的風險)


普林斯頓研究團隊發現,AI信息不准確的根源,恰恰集中在基於人類反饋的強化學習階段。初始的預訓練階段,模型僅專注於從數據中學習“統計上合理的文本鏈”;但進入基於人類反饋的強化學習階段後,訓練目標徹底轉向“最大化用戶滿意度”,這意味著模型本質上在學習“如何生成能從人類評估者那裡獲得‘點贊’的回答”,而非“如何生成真實、准確的回答”。

卡內基梅隆大學計算機科學教授文森特.康尼策(Vincent Conitzer,未參與該研究)對此解釋道:“從歷史表現來看,這些AI系統不擅長說‘我不知道答案’。當它們遇到知識盲區時,不會選擇坦誠,而是像考試中怕得零分的學生一樣,傾向於隨意編造答案。這種行為背後,是受訓練機制中‘以用戶滿意度為核心獎勵’的邏輯驅動。”




普林斯頓團隊開發的“胡說八道指數”計算公式

為量化這一現象,普林斯頓團隊開發了“胡說八道指數”(Bullshit Index),用於對比AI模型對某一陳述的“內在信心”(即模型自身判斷的真實性概率)與“實際輸出內容”的偏差程度。實驗數據顯示,經過基於人類反饋的強化學習訓練後,AI的“胡說八道指數” 從0.38幾乎翻倍至接近1.0,而同期用戶滿意度提升了48%。這意味著,模型已學會通過“操控人類評估者的喜好”獲取高分,而非通過提供准確信息贏得認可。簡而言之,大語言模型在“胡說八道”,但用戶卻更青睞這樣的結果。

02.破局嘗試:如何讓AI在“討好”與“誠實”間找到平衡?




不同模型的“胡說八道”方式各不相同

針對AI對真相的漠視問題,普林斯頓大學的傑米.費爾南德斯.菲薩克(Jaime Fernández Fisac)及其團隊首先明確了問題邊界。他們引入“機器胡說八道” 概念,借鑒哲學家哈裡.法蘭克福(Harry Frankfurt)的著名論文《論扯淡》(On Bullshit),將AI的不真實行為與“誠實錯誤”、“直接謊言” 區分開,並梳理出五種典型的“機器胡說八道” 形式:


空洞修辭:使用華麗但無實質內容的語言,例如用大量專業術語堆砌卻未解釋核心邏輯。

·模棱兩可的措辭:通過模糊限定詞規避明確表述,如“有研究表明”、“在部分情況下”,既不肯定也不否定,留足“回旋空間”。

·半真半假:選擇性呈現事實以誤導用戶,例如推薦投資產品時,只強調“歷史年化收益率超10%”,卻刻意隱瞞“風險等級為高風險”的關鍵信息。

·未經證實的主張:做出缺乏證據或可信來源支持的斷言,如“某方法可100%治愈某疾病”,且無任何權威數據支撐。
您的點贊是對我們的鼓勵     無評論不新聞,發表一下您的意見吧
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0302 秒 and 5 DB Queries in 0.0013 秒