| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

"AI登月時刻",OpenAI模型摘取奧數金牌

QR Code
請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
OpenAI的一個通用推理模型,在剛結束的國際奧林匹克數學競賽(IMO)中達到了金牌的水平。AI登月時刻,社交媒體一夜無眠,AI圈子沸騰了。


在與人類參賽者完全相同的規則下,OpenAI的模型挑戰了2025年IMO試題:兩場各4.5小時的考試、禁用任何工具和互聯網、只能閱讀官方題面並以自然語言撰寫完整證明。模型完整解出了6題中的5題。每道題都由三位前IMO獎牌得主獨立批改,並在取得一致意見後定分。最終模型拿到35/42分——足以摘金!

重大意義在於,這是一個通用推理模型,而不是一個專門用來解數學題的專門系統,也沒有經過驗證的獎勵信號,即它不是依賴於“有標准答案、實時打分的獎勵”來學會的,而是靠更通用的推理和新技術,在長時間復雜的過程中,做出了正確的推理和證明。


OpenAI證明,盡管經歷了Meta瘋狂的挖角,它依然保持了頂尖研究人才的密度,做出重大的研究突破。本周OpenAI的模型o3 alpha在AtCoder世界巡回賽2025決賽中僅遜於人類編程奇才Psyho,獲得第二名;測試中強於o3 pro,是最好的編程及物理模型。

這樣,OpenAI目前擁有了最強的編程及數學模型,讓它再次碾壓DeepMind,Anthropic,Grok等,也再次與中國引領的開源模型拉開了差距。

實際上,OpenAI內部正在測試一個全新的推理模型,取得奧數金牌成績,僅是其一次小試牛刀。它的正式發布甚至會在GPT-5之後,預計是今年底。OpenAI推理研究的科學家Alexander We負責這個模型項目,他首先宣布了這一消息,並順帶提及GPT-5發布在即。

這是一件大事,我們可以說它讓成為AGI邁向ASI的新起點嗎?Alexander Wei發了一組帖文說明它的意義:

“第一,IMO題目對“持續創造性思考”提出了前所未有的要求。從推理時間跨度來看,我們已經一路從GSM8K(頂尖人類約0.1分鍾)→MATH數據集(約1分鍾)→AIME(約10分鍾)→IMO(約100分鍾)。

第二,IMO答案往往是長達數頁、難以驗證的證明。要想在這一關取得進展,就必須跳出傳統強化學習“獎勵信號清晰、易於驗證”的范式。我們做到了——由此得到的模型能夠在復雜度和嚴謹性上匹敵人類數學家。

除了結果本身,我更興奮的是方法:我們並未依賴狹窄的、任務特化的技巧,而是通過通用強化學習與“測試時計算”擴展的新突破,才達到這一水准。”

這項成就,在OpenAI內部被認為是實現了急需的一次研究上的突破,“Alex Wei做到了。”它幾乎沒有針對IMO做任何專項工作,只是持續訓練通用模型;所有證明均為自然語言撰寫,沒有使用任何定制化的評測框架。

這個模型的尺寸仍然是個謎,不過OpenAI的團隊成員透露,所用的算力相當有限,因為星際之門還沒有投入使用。

OpenAI科學家Sebastined Bubeck稱之為AI的“登月時刻”。簡單講:一個只是預測下一個詞的機器(真的是啥工具都沒用)剛剛給出了幾個又難又新的數學題的創造性證明,這種水平平時也只有少數天才少年能做到。



OpenAI的首席研究官Mark Chen曾經擔任美國國際奧林匹克信息競賽的教練,他認為:“不同於以往比賽中用的那些狹窄的系統,我們的模型具備更廣泛的推理能力,遠遠超越了競賽題的范圍。”

他指的是谷歌的AlphaProof在去年的奧數賽中,解出了6道題中的4道。

解決了奧數金牌的問題,接下來就是人類真正待解的難題了。在OpenAI多智能體組的研究員Sheryl Hsu參與了這個項目,她激動地說,從起步到達到奧數金牌水平,僅用了15個月,照這個速度下去,明年就可以用來產生數學定理和用全新方法進行數學研究了。



人工智能會在2030年前解決一個千禧年大獎難題嗎?當前市場上對這個問題的預測概率驟然上升,達到了81%。

千禧年大獎難題是指克雷數學研究所(Clay Mathematics Institute)於2000年提出的七個尚未解決的重要數學問題,每個問題的獎金是100萬美元。



GPT-5


萬眾期待的GPT-5要來了。奧特曼宣布:

我們很快就會發布GPT-5,但也希望大家對它抱有合理的預期:這是一個實驗性的模型,融入了我們將在未來模型中繼續采用的新研究技術。

我們相信你們會喜歡GPT-5,但在接下來的幾個月裡,我們並不打算發布一個具備IMO金牌水平能力的模型。

有一種說法是這次發布就是為了終結命名混亂,將轉用一個統一模型架構,用戶只要“挑/調”推理強度或智能等級即可。

圈子裡也在流傳GPT-5的蛛絲馬跡。這張圖顯示GPT-5在測試生物風險,用的是最強推理模式,限時15分鍾,連跑10次mbct生物題,把結果和日志按指定目錄收好。



一些AI研究者分析:GPT-5將采用end-to-end強化學習(RL)進行訓練,模型直接在環境中從原始輸入學習到最優策略,無需人為拆分子任務或設計中間模塊,也不依賴於顯式的chain of thought(逐步推理)輸出。通過整體性的獎勵信號指導,模型能夠高效地探索、試錯並收斂到優秀的解決方案,實現更高的任務完成度和更強的泛化能力。

最近OpenAI被Meta挖角,幾乎傷筋動骨。但這次奧數奪金,等於是告訴Meta:我們要向超級人工智能跨越了。


最後,下面是OpenAI負責推理研究的Noam Brown的評論:

今天,我們@OpenAI取得了一個許多人認為還需要幾年才能實現的裡程碑:一個具備金牌水平的推理型大語言模型(LLM),在2025年國際數學奧林匹克(IMO)中,在與人類相同的時間限制下、無需任何工具,完成了解題。

聽起來已經很驚人了,但這個成就的意義其實遠不止這個標題所能表達的:

通常來說,像圍棋、Dota、撲克、外交游戲(Diplomacy)等領域的AI結果,研究人員要花費數年時間,打造一個只擅長某個狹窄領域、除此之外幾乎一無是處的AI。

但這次並不是一個專門針對IMO的模型,而是一個融合了全新實驗性通用技術的推理型LLM。

那麼,有什麼不同呢?我們開發了新的技術,讓LLM在那些難以驗證的任務上表現得更好。IMO題目正是絕佳的挑戰:證明通常長達數頁,專家們也需要幾個小時才能批改。相比之下,AIME(美國數學邀請賽)的答案只是0到999之間的一個整數。



此外,這個模型會“思考”很久。o1思考幾秒,Deep Research思考幾分鍾,而它可以思考幾個小時。更重要的是,它的思考效率也更高。而且,在推理時間計算和效率上,我們還有很大的提升空間。



頭圖來自:AI生成

值得回顧的是,AI尤其是在數學領域的進步有多麼快。2024年時,AI實驗室還在用小學數學(GSM8K)作為模型發布的評測。隨後我們達到了高中水平的MATH基准,又突破了AIME,如今則達到了IMO金牌水平。

接下來會怎樣?盡管最近AI進步飛快,我完全相信這個趨勢還會繼續。更重要的是,我認為我們正接近讓AI在科學發現中發揮實質性作用的階段。因為AI的表現從略低於頂尖人類水平到略高於頂尖人類水平之間,其差距是巨大的。

這是一個由@alexwei_領導的小團隊完成的成果。他把一個很少有人相信的研究想法,變成了一個幾乎沒人覺得可能實現的結果。當然,這一成就也離不開@OpenAI以及更廣泛的AI社區多年積累的研究和工程工作。

當你在一家前沿實驗室工作時,通常會提前幾個月知道前沿能力在哪裡。但這個結果使用了最近才開發出的新技術,甚至對許多OpenAI的研究人員來說也是一個驚喜。今天,每個人都可以看到前沿在哪裡。
您的點贊是對我們的鼓勵     無評論不新聞,發表一下您的意見吧
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0325 秒 and 5 DB Queries in 0.0014 秒