| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

谷歌: 谷歌要重奪王座:Gemini 3.1 Pro發布


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
Gemini 3.1 Pro的得分在各項標准測試中均碾壓同類競品


Gemini 3 Pro之前的得分是31.1%,而Gemini 3.1 Pro一口氣沖到了77.1%。谷歌DeepMind的老板戴密斯·哈薩比斯(Demis Hassabis)也特地發文說,這標志著模型在核心推理和問題解決能力上有了重大改進。

但真正的殺手鑭,還不是得分。Gemini 3.1 Pro這次引入了一個“三級思考”模式——低、中、高。你可以把它理解為給模型裝了一個可以調節的“算力旋鈕”。簡單說,就是用戶可以根據任務難度,自己決定讓模型花多少時間思考。


之前的Gemini 3 Pro只有兩檔:低和高。這次Gemini 3.1 Pro在中間加了一檔,同時調整了“高”模式的含義。調到高的時候,模型會進入類似Deep Think的狀態。Deep Think是谷歌上周更新的推理模型,特點是花更多時間處理復雜問題。現在Gemini 3.1 Pro自己就能做這件事,不用單獨切換。

這個功能主要解決一個實際問題。以前開發者處理不同難度的任務,往往需要准備多個模型,簡單對話用一個,復雜推理用另一個。接口不同,計費不同,還得自己寫邏輯判斷該調用哪個。時間長了,這套東西維護起來比較麻煩。

現在一個模型就夠了。常規任務用低檔,可以快速返回;復雜任務用高檔,讓它多花點時間處理。不用來回切換,也不用維護多個模型。

02 “搶王座”,跑分大比分獲勝

既然是來“搶王座”的,就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6這些老對手掰掰手腕。


從紙面數據看,Gemini 3.1 Pro這次確實挺能打。Artificial Analysis的智能指數測試裡,它在10項評估中拿下了6項第一,包括Terminal-Bench Hard(編碼)、GPQA Diamond(科學知識)和Humanity's Last Exam(推理知識)。



在Artificial Analysis的智能指數測試中,Gemini 3.1 Pro吊打對手


尤其在測試模型是否“不懂裝懂”的AA-Omniscience幻覺率上,Gemini 3.1 Pro比前代狂降了38個百分點,這意味著它現在更清楚自己“不知道什麼”,而不是瞎編一通。



在AA-Omniscience測試中,Gemini 3.1 Pro幻覺率大幅下降

在一項針對研究級物理推理問題的CritPt測試中,Gemini 3.1 Pro更是拿下了18%的分數,比第二名的模型高出5個百分點以上。Artificial Analysis對此評價稱,這表明谷歌這次在底層智能上確實下了狠功夫。

不過,AI圈的競爭從來不只是“考高分”。在更貼近用戶體驗的Arena排行榜上,情況就沒那麼一邊倒了。這個榜單靠用戶給不同模型的回答投票排名,比的不是邏輯對錯,而是誰的回答看起來更“順眼”。目前,在純文本任務上,Claude Opus 4.6依然領先Gemini 3.1 Pro 4分,在代碼任務上,Opus系列和GPT-5.2也還保持著微弱優勢。
覺得新聞不錯,請點個贊吧     這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0376 秒 and 3 DB Queries in 0.0019 秒