Claude 4.5重奪最強模型王冠:編碼能力超越人類專家

2025-11-25 | 來源: 騰訊科技 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

11月25日凌晨，Anthropic發布了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱，新模型在軟件工程任務上實現了“最先進性能”，進一步加劇了其與OpenAI、谷歌等對手之間的競爭。

Claude Opus 4.5在Anthropic軟件工程測試中表現出色，得分超越Gemini 3 Pro、GPT-5.1等一眾對手。

圖：Claude Opus 4.5在SWE Bench軟件工程測試中的性能表現

公司數據顯示，該模型在SWE-bench Verified（一項評估現實世界軟件工程能力的基准測試）中達到了80.9%的准確率，表現超越了OpenAI的GPT-5.1-Codex-Max（77.9%）、Anthropic自家的Sonnet 4.5（77.2%）以及谷歌的Gemini 3 Pro（76.2%）。

同時，Anthropic大幅下調了這款模型的定價：輸入token降至每百萬5美元，輸出token為每百萬25美元，較前代產品Claude Opus 4.1（輸入15美元/百萬，輸出75美元/百萬）下降約三分之二。

Claude 4不是大模型,是一個能連續上班7小時的AI

最強模型一夜易主 Claude 3狙擊GPT-5 理解力近人類(圖)

Claude正席卷AI界,連"非技術黨"也驚歎

降價使得尖端AI技術對廣大開發者和企業更加觸手可及，同時也給競爭對手帶來了性能與價格的雙重壓力。

在現實任務中展現更優判斷力

測試人員普遍反饋，新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為：模型開始領悟現實情境中的“關鍵所在”。

“這個模型好像突然‘開竅’了，”開發者關系負責人阿爾伯特表示，“它在處理許多現實問題時表現出的直覺和判斷力，讓人感覺相比前代模型實現了一次質的跨越。”

阿爾伯特以自身工作為例進一步說明：過去他僅利用AI收集信息，而對它們的整合與優先級排序能力持保留態度。如今，借助Opus 4.5，他已開始委托更完整的任務，通過連接Slack和內部文檔，模型能生成與他預期高度契合的連貫摘要。

賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道，新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用，例如跨軟件操作（如用Excel制作PPT）。