| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

Claude 4.5重奪最強模型王冠:編碼能力超越人類專家


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



11月25日凌晨,Anthropic發布了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱,新模型在軟件工程任務上實現了“最先進性能”,進一步加劇了其與OpenAI、谷歌等對手之間的競爭。

Claude Opus 4.5在Anthropic軟件工程測試中表現出色,得分超越Gemini 3 Pro、GPT-5.1等一眾對手。




圖:Claude Opus 4.5在SWE Bench軟件工程測試中的性能表現

公司數據顯示,該模型在SWE-bench Verified(一項評估現實世界軟件工程能力的基准測試)中達到了80.9%的准確率,表現超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及谷歌的Gemini 3 Pro(76.2%)。

同時,Anthropic大幅下調了這款模型的定價:輸入token降至每百萬5美元,輸出token為每百萬25美元,較前代產品Claude Opus 4.1(輸入15美元/百萬,輸出75美元/百萬)下降約三分之二。


降價使得尖端AI技術對廣大開發者和企業更加觸手可及,同時也給競爭對手帶來了性能與價格的雙重壓力。

在現實任務中展現更優判斷力

測試人員普遍反饋,新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為:模型開始領悟現實情境中的“關鍵所在”。


“這個模型好像突然‘開竅’了,”開發者關系負責人阿爾伯特表示,“它在處理許多現實問題時表現出的直覺和判斷力,讓人感覺相比前代模型實現了一次質的跨越。”

阿爾伯特以自身工作為例進一步說明:過去他僅利用AI收集信息,而對它們的整合與優先級排序能力持保留態度。如今,借助Opus 4.5,他已開始委托更完整的任務,通過連接Slack和內部文檔,模型能生成與他預期高度契合的連貫摘要。

賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道,新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用,例如跨軟件操作(如用Excel制作PPT)。


點個贊吧!您的鼓勵讓我們進步     這條新聞還沒有人評論喔,等著您的高見呢
上一頁123下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0501 秒 and 5 DB Queries in 0.0018 秒