馬斯克: 馬斯克加入 "視覺模型"是下個"大語言模型"?

2025-10-12 | 來源: 硬AI | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

谷歌的研究人員Jack Clark在論文中寫道：“我們認為，正如自然語言處理（NLP）從特定任務模型轉向通用模型一樣，機器視覺領域也可能通過視頻模型發生同樣的轉變——一個‘視覺領域的GPT-3時刻’。”

他們將視頻逐幀生成的過程類比為語言模型中的“思維鏈”（chain-of-thought），並稱之為“幀鏈”（chain-of-frames），認為這使得視頻模型能夠跨越時空進行推理。

這一發現意義深遠，它暗示著通過發展更智能的視頻模型，人們或許能夠獲得能力極強的機器人“代理”（agent）。

前景與現實：高昂的成本與“願景”的缺失

盡管前景誘人，但通往世界模型的道路並非坦途。目前，該技術仍面臨巨大的技術挑戰，其中最主要的是為模擬真實世界尋找和處理足夠訓練數據的成本極其高昂。

潛在商機堪比全球經濟規模馬斯克xAI打造"世界模型"

馬斯克與推特前CEO等高管和解9億補償金訴訟

推特高層為資遣費集體提告馬斯克同意付錢和解

與此同時，業界也存在對AI作用的冷靜審視。熱門游戲《博德之門3》的開發商Larian Studios的發行主管Michael Douse本周在X上表示，AI無法解決游戲行業的“大問題”，即“領導力和願景”。

他補充說，行業需要的不是“更多由數學方式生產、經過心理學訓練的游戲循環”，而是對世界更多樣化的表達。這代表了一種普遍的觀點：純粹的技術突破本身，並不能保證創造出能夠真正打動人心的商業產品。

盡管挑戰重重，但xAI的入局無疑為世界模型的競賽再添一把火。

AI的焦點正不可逆轉地從純粹的數字信息處理，轉向對復雜物理現實的模擬與交互。視覺模型是否能復刻大語言模型的輝煌，迎來屬於自己的“GPT時刻”，不僅將決定下一代AI霸主的歸屬，更可能重塑我們與數字及物理世界的根本關系。