| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

普林斯頓大學新研究:強化學習讓AI變成了"馬屁精"


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



9月5日消息,普林斯頓研究團隊近日發布報告指出,為了迎合用戶需求,AI工具開始了“胡說八道”。報告指出,生成式AI模型頻繁出錯,一個重要原因在於它們被訓練得過於迎合用戶,仿佛奉行著“顧客永遠是對的”這一原則。

AI和人類一樣,會對激勵機制做出反應。比如,原本“將患者疼痛管理納入醫生績效考核”是為了改善醫療體驗,但在現實中卻反而促使醫生更多開具成癮性止痛藥。大語言模型(LLMs)出現不准確信息,其背後也是類似的激勵偏差:訓練目標的設定過於偏向滿足用戶需求,而不是追求事實,從而讓AI偏離了“求真”的軌道。


01.從訓練機制拆解:大模型迎合優先,RLHF讓模型走偏

近幾個月,AI的潛在風險與爭議不斷顯現:一方面,其可能存在的偏見問題已被證實,更有觀點認為其或對部分人群誘發精神病。MIT在今年6月發布的論文中表示,大語言模型會顯著降低大腦活動水平,削弱記憶,甚至造成“認知慣性”。長期以來,會嚴重影響用戶的深度思考和創造力。

另一方面,圍繞AI“諂媚”的討論也從未停歇,典型如OpenAI的 GPT-4o模型,往往會無原則地快速迎合用戶。今年5月,來自斯坦福大學、牛津大學等機構的研究人員提出了一個新的衡量模型諂媚行為的基准——Elephant,並對包括GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7在內的8款主流模型進行了評測。結果發現,GPT-4o成功當選“最諂媚模型”,Gemini 1.5 Flash最正常。


需要注意的是,研究人員提出的“機器胡說八道” (Machine Bullshit)現象,與上述兩類問題均不相同。正如普林斯頓大學研究所述:“幻覺和諂媚都無法全面涵蓋大語言模型普遍存在的系統性不真實行為。舉例來說,模型使用部分真相誤導、用模糊語言回避明確結論,也就是半真半假或模棱兩可的表達,這類行為既不屬於幻覺,也不是諂媚,卻與‘胡說八道’概念高度匹配。”

報告指出,要明晰AI語言模型如何淪為“討好者”,需先了解大語言模型的完整訓練過程,其通常分為三個核心階段:


·預訓練階段:模型從互聯網、書籍、學術論文等海量公開數據源中學習,核心任務是掌握語言邏輯與知識關聯,本質是“預測下一個最可能出現的文字”,此時尚未涉及對“用戶喜好”的考量。

·指令微調階段:通過特定數據集訓練,讓模型理解並響應人類的指令或提示,例如區分“寫一首詩”與“解釋一個科學原理”的不同需求,初步建立“任務匹配”能力。

·基於人類反饋的強化學習(RLHF)階段:這是AI“討好屬性”的關鍵養成期。模型會根據人類評估者對回答的打分(如“滿意”或“不滿意”)進行優化,目標是生成更貼合人類期望或喜好的內容。


不錯的新聞,我要點贊     無評論不新聞,發表一下您的意見吧
上一頁123下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0323 秒 and 5 DB Queries in 0.0015 秒