"AI登月時刻",OpenAI模型摘取奧數金牌

2025-07-20 | 來源: 未盡研究 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

人工智能會在2030年前解決一個千禧年大獎難題嗎？當前市場上對這個問題的預測概率驟然上升，達到了81%。

千禧年大獎難題是指克雷數學研究所（Clay Mathematics Institute）於2000年提出的七個尚未解決的重要數學問題，每個問題的獎金是100萬美元。

GPT-5

萬眾期待的GPT-5要來了。奧特曼宣布：

我們很快就會發布GPT-5，但也希望大家對它抱有合理的預期：這是一個實驗性的模型，融入了我們將在未來模型中繼續采用的新研究技術。

我們相信你們會喜歡GPT-5，但在接下來的幾個月裡，我們並不打算發布一個具備IMO金牌水平能力的模型。

有一種說法是這次發布就是為了終結命名混亂，將轉用一個統一模型架構，用戶只要“挑/調”推理強度或智能等級即可。

圈子裡也在流傳GPT-5的蛛絲馬跡。這張圖顯示GPT-5在測試生物風險，用的是最強推理模式，限時15分鍾，連跑10次mbct生物題，把結果和日志按指定目錄收好。

在OpenAI工作,是一種怎樣的體驗?

AI拿下數學金牌!OpenAI解出5題,打敗90%參賽者

OpenAI搶輸了 Google狠砸24 億

一些AI研究者分析：GPT-5將采用end-to-end強化學習（RL）進行訓練，模型直接在環境中從原始輸入學習到最優策略，無需人為拆分子任務或設計中間模塊，也不依賴於顯式的chain of thought（逐步推理）輸出。通過整體性的獎勵信號指導，模型能夠高效地探索、試錯並收斂到優秀的解決方案，實現更高的任務完成度和更強的泛化能力。

最近OpenAI被Meta挖角，幾乎傷筋動骨。但這次奧數奪金，等於是告訴Meta：我們要向超級人工智能跨越了。

最後，下面是OpenAI負責推理研究的Noam Brown的評論：

今天，我們@OpenAI取得了一個許多人認為還需要幾年才能實現的裡程碑：一個具備金牌水平的推理型大語言模型（LLM），在2025年國際數學奧林匹克（IMO）中，在與人類相同的時間限制下、無需任何工具，完成了解題。

聽起來已經很驚人了，但這個成就的意義其實遠不止這個標題所能表達的：

通常來說，像圍棋、Dota、撲克、外交游戲（Diplomacy）等領域的AI結果，研究人員要花費數年時間，打造一個只擅長某個狹窄領域、除此之外幾乎一無是處的AI。

但這次並不是一個專門針對IMO的模型，而是一個融合了全新實驗性通用技術的推理型LLM。

那麼，有什麼不同呢？我們開發了新的技術，讓LLM在那些難以驗證的任務上表現得更好。IMO題目正是絕佳的挑戰：證明通常長達數頁，專家們也需要幾個小時才能批改。相比之下，AIME（美國數學邀請賽）的答案只是0到999之間的一個整數。