OpenAI最強推理模型o4-mini來了這次什麼新功能?

2025-04-17 | 來源: 騰訊科技 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

北京時間4月17日凌晨，OpenAI 發布了兩款突破性AI模型——o3和o4-mini，它們能通過圖像進行推理，並可自主調用多種工具，被專家稱為人工智能能力的一次飛躍式提升。

這兩款模型都是OpenAI “o 系列” 推理模型的最新成員，經過訓練後，它們可在響應前進行更長時間的思考。同時，它們也是OpenAI迄今發布的最智能、最強大的模型。

這些推理模型可以自主組合並使用ChatGPT內的所有工具——包括網頁搜索、利用Python分析上傳的文件和數據、對視覺輸入進行深入推理，甚至還能生成圖像。

最重要的是，這些模型不僅能判斷何時使用工具，還能決定如何使用工具，從而以正確的輸出格式，在一分鍾內給出經過深思熟慮的詳細回答，幫助解決更復雜的問題。

這意味著它們能更高效地應對多層次、多步驟的問題，讓ChatGPT具備“自主執行任務”的能力。將頂級推理能力與完整工具訪問權限結合在一起，讓這些新模型在學術評測和實際任務中的表現都有了顯著提升。

性能提升

OpenAI聲稱， o3是其迄今推出的最強大推理模型，在編程、數學、科學、視覺理解等多個領域均取得了突破性進展。它在多項基准測試中都創下新紀錄，包括Codeforces、SWE-bench和MMMU。

前OpenAI研究員跳槽騰訊　美中AI競爭再升溫

網傳1億年薪挖角OpenAI 騰訊回應

馬斯克劍指奧爾特曼?聲稱OpenAI舉報人死於謀殺

OpenAI新模型o3和o4-mini等在數學競賽、編程、指令遵循和工具調用方面的表現

這款模型非常適合需要多維度分析、答案並不直觀的復雜查詢，在視覺任務（如圖像、圖表和圖形分析）中表現尤為突出。

根據外部專家的評估，在現實世界的高難度任務中，o3的重大錯誤率比OpenAI o1降低了20%，在編程、商業/咨詢和創意構思等領域表現也很出色。早期測試者稱其為具有極高分析能力的“思考伙伴”，尤其擅長在生物學、數學和工程領域提出並評估全新的假設。

與o3相比，OpenAI o4-mini是一款更小巧、但高效能的推理模型，專為快速、成本友好的應用場景而優化。在數學、編程和視覺任務上，它展現出了驚人的性價比。o4-mini是AIME 2024和AIME2025基准測試中表現最好的模型之一。

在專家評估中，o4-mini在非STEM任務（科學、技術、工程、數學）上的表現超越了o3-mini。憑借出色的計算效率，o4-mini支持比o3更高的使用頻率，使其成為需要推理能力的高頻、高吞吐量場景的理想選擇。

外部專家評估認為，得益於智能水平的提升和網絡信息的引入，這兩款模型在遵循指令和提供更有用、可驗證的回答方面均優於前代模型。與此前的推理模型相比，它們的對話體驗也更加自然，尤其是在引用記憶和過往對話時，能夠提供更個性化、更相關的回答。

持續擴展強化學習能力