谷歌: 谷歌要重奪王座:Gemini 3.1 Pro發布

2026-02-19 | 來源: 騰訊科技 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

Gemini 3.1 Pro的得分在各項標准測試中均碾壓同類競品

Gemini 3 Pro之前的得分是31.1%，而Gemini 3.1 Pro一口氣沖到了77.1%。谷歌DeepMind的老板戴密斯·哈薩比斯（Demis Hassabis）也特地發文說，這標志著模型在核心推理和問題解決能力上有了重大改進。

但真正的殺手鑭，還不是得分。Gemini 3.1 Pro這次引入了一個“三級思考”模式——低、中、高。你可以把它理解為給模型裝了一個可以調節的“算力旋鈕”。簡單說，就是用戶可以根據任務難度，自己決定讓模型花多少時間思考。

之前的Gemini 3 Pro只有兩檔：低和高。這次Gemini 3.1 Pro在中間加了一檔，同時調整了“高”模式的含義。調到高的時候，模型會進入類似Deep Think的狀態。Deep Think是谷歌上周更新的推理模型，特點是花更多時間處理復雜問題。現在Gemini 3.1 Pro自己就能做這件事，不用單獨切換。

這個功能主要解決一個實際問題。以前開發者處理不同難度的任務，往往需要准備多個模型，簡單對話用一個，復雜推理用另一個。接口不同，計費不同，還得自己寫邏輯判斷該調用哪個。時間長了，這套東西維護起來比較麻煩。

現在一個模型就夠了。常規任務用低檔，可以快速返回；復雜任務用高檔，讓它多花點時間處理。不用來回切換，也不用維護多個模型。

02 “搶王座”，跑分大比分獲勝

既然是來“搶王座”的，就免不了要和OpenAI的GPT-5.2、Anthropic的Claude Opus 4.6這些老對手掰掰手腕。

僅20分鍾,ChatGPT和Google的AI系統被駭入

微軟和谷歌在新德裡全球人工智能峰會宣布新投資計劃

Google釋出AI拜年官方指令:一鍵生成專屬賀卡

從紙面數據看，Gemini 3.1 Pro這次確實挺能打。Artificial Analysis的智能指數測試裡，它在10項評估中拿下了6項第一，包括Terminal-Bench Hard（編碼）、GPQA Diamond（科學知識）和Humanity's Last Exam（推理知識）。

在Artificial Analysis的智能指數測試中，Gemini 3.1 Pro吊打對手

尤其在測試模型是否“不懂裝懂”的AA-Omniscience幻覺率上，Gemini 3.1 Pro比前代狂降了38個百分點，這意味著它現在更清楚自己“不知道什麼”，而不是瞎編一通。

在AA-Omniscience測試中，Gemini 3.1 Pro幻覺率大幅下降

在一項針對研究級物理推理問題的CritPt測試中，Gemini 3.1 Pro更是拿下了18%的分數，比第二名的模型高出5個百分點以上。Artificial Analysis對此評價稱，這表明谷歌這次在底層智能上確實下了狠功夫。

不過，AI圈的競爭從來不只是“考高分”。在更貼近用戶體驗的Arena排行榜上，情況就沒那麼一邊倒了。這個榜單靠用戶給不同模型的回答投票排名，比的不是邏輯對錯，而是誰的回答看起來更“順眼”。目前，在純文本任務上，Claude Opus 4.6依然領先Gemini 3.1 Pro 4分，在代碼任務上，Opus系列和GPT-5.2也還保持著微弱優勢。