| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

普林斯頓大學新研究:強化學習讓AI變成了"馬屁精"


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
·諂媚:為取悅用戶進行不真誠的奉承或附和,例如無論用戶觀點是否正確,均回應“你的想法非常專業,完全正確”。


為解決這一問題,普林斯頓研究團隊開發了一種全新的訓練方法——“後見模擬強化學習”(Reinforcement Learning from Hindsight Simulation)。其核心邏輯是“跳出即時滿意度,關注長期價值”。這種訓練方法不再以“這個回答現在能否讓用戶開心”作為評估標准,而是轉向“如果用戶遵循這個建議,能否真正幫助他實現目標”。

該方法需提前預判AI建議可能產生的未來後果,針對這一復雜的預測難題,研究人員引入“額外AI模型”,通過模擬不同場景下建議的執行結果,反向推導回答的“實際效用”。初步測試數據顯示,這種訓練方式不僅未降低用戶滿意度,還進一步提升了回答的實際價值,成功實現“討好用戶”與“輸出誠實信息”的初步平衡。

不過,康尼策也提出提醒:大語言模型的缺陷難以徹底消除。“這些系統能通過海量文本數據掌握人類語言理解能力,本身已是重大技術突破,但受限於訓練邏輯,它們無法保證每次回答都絕對合理、准確。在我看來,未來一兩年內,很難出現能‘讓AI徹底避免出錯’的重大突破。”

AI系統正逐步融入醫療、教育、金融等關鍵領域,在此背景下,如何平衡“用戶滿意度”與“信息真實性”、如何處理“短期認可”與“長期價值”的取舍關系、以及如何確保AI在提升人類心理推理能力後“負責任地運用這種能力”,這些問題已成為AI行業發展必須直面的核心挑戰,需要全球研究者與開發者攜手探索解決方案。
覺得新聞不錯,請點個贊吧     好新聞沒人評論怎麼行,我來說幾句
上一頁123下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0302 秒 and 5 DB Queries in 0.0019 秒