不是什麼都叫"世界模型",李飛飛給出新定義

2026-06-05 | 來源: 騰訊科技 | 轉到微信 | 有0人參與評論 | 字體: 放大縮小 | 收藏 | 打印

斯坦福大學AI科學家、World Labs創始人李飛飛。圖片經由AI處理

文丨謝瑞瑞

編輯丨徐青陽

“世界模型”是過去兩年AI領域最常被提及的概念之一，但它的含義正在變得越來越模糊。

視頻生成模型、語言模型，甚至連物理引擎都能自稱是世界模型。

斯坦福大學AI科學家、World Labs創始人李飛飛於6月4日撰文，專門回應這種混亂。她開篇便給出判斷：世界模型是當今AI領域最重要、也最被濫用的術語之一。

她在文中寫道，連古希臘人都沒給“世界”下過一個統一、公認的定義。“世界”從來不是一個具體的事物，今天，AI也繼承了同樣的問題——世界模型的邊界在哪裡？

李飛飛的解決思路很明確：先分清世界模型的三個核心功能——渲染、模擬、規劃。

01 理解世界模型的鑰匙，是一張舊圖

在展開論述之前，李飛飛先回顧了一張在強化學習領域使用了幾十年的框架圖：部分可觀測馬爾可夫決策過程（Partially Observable Markov Decision Process，POMDP）。這個框架的名稱很復雜，但邏輯卻簡明。

李飛飛將目前的世界模型系統分為三類，分別是渲染器、模擬器以及規劃器

它描述的是一個循環：智能體采取行動，行動改變世界的狀態，智能體從環境中獲得觀測值，再依據觀測采取下一步行動。循環持續進行。

文中的“狀態”，指的是物理學和機器人學中的概念：在某個時刻對世界狀況的完整描述，涵蓋每一個物體、每一個位置、每一組速度和每一項屬性，對身處其中的任何智能體而言，永遠無法被完全直接感知。我們能得到的，只是對現實的部分觀測。

李飛飛進一步指出，這個由“智能體—行動—狀態—觀測—回到智能體”構成的閉環，賦予了現代世界模型真正的技術內核。

“世界模型”概念，最早可以追溯到1943年，由心理學家肯尼斯·克雷克（Kenneth Craik）在1943年提出，即大腦通過運行現實的“小規模模型”來進行推理。到了20世紀80年代末、90年代初，這個概念被引入神經網絡研究。而今天，所有被稱為世界模型的事物，本質上都是同一個循環在不同方向上的投影，每一類只輸出循環中的一個片段。

02 三類世界模型：渲染器、模擬器與規劃器

李飛飛認為，當前所有自稱世界模型的系統可分為三類：渲染器、模擬器和規劃器。

第一類世界模型是渲染器。它的輸出是供人眼觀看的像素，核心評估指標是視覺逼真度。

渲染器主要負責生成視覺畫面，最主要的考核標准是逼真度

能將文本提示轉化為電影級航拍鏡頭的視頻生成模型屬於這一類，谷歌的Genie 3、World Labs自研的RTFM等交互式生成系統也在此列。這類模型對三維結構沒有顯式理解，它們生成的是觀眾“會看到什麼”，而不是“現實本身是什麼”。

李飛飛在文中舉了一個例子：航拍鏡頭中的建築從上方看可能完美無缺，但如果試圖驅車穿過下方的城市，畫面就會分崩離析。原因很簡單，渲染器的契約純粹是視覺上的，它並不對畫面背後的物理結構承擔任何責任。

渲染器是當前商業落地最成熟的一類世界模型。谷歌的Nano Banana已經將渲染級別的圖像生成能力交付到數億用戶手中。

但它的天花板同樣清晰——渲染器優化的是視覺合理性，而非物理准確性。它的輸出令人贊歎，但不能被信賴去設計建築或訓練機器人。李飛飛對此總結道：渲染器的輸出固然美麗，但你無法信任它們去承擔那些與現實世界緊密結合的任務。

第二類世界模型是模擬器。它輸出的不是像素，而是狀態，是一種在幾何、物理和動力學層面高度保真的世界表征。

模擬器的職責是構建符合物理規則的三維結構

模擬器的契約是結構性的：幾何必須經得起審視，物理必須尊重客觀規律，動力學表現必須符合現實約束。

它同時服務於兩類受眾：一類是人類專業人士，包括建築師、設計師、電影制作人和游戲開發者；另一類是計算機程序，包括強化學習智能體、機器人控制器和自動駕駛汽車，它們將模擬器作為訓練場，測試那些在現實中過於危險或昂貴的場景。

李飛飛在文中有這樣一段論述：如果說語言是對世界的一種抽象描述，像素是對世界的一種視覺投影，那麼幾何、物理和動力學才是世界的本來面目。模擬器必須建立在這個層面之上。

她舉例說，模擬器生成的幾何結構和物理規則就像一副骨骼——渲染器所需要的視覺外觀、規劃器所依賴的行動後果，都是從這副骨骼上生長出來的。

這意味著，一個精通模擬的模型，可以將其理解轉化為供人觀看的像素，也可以轉化為供具身智能體使用的行動預測。而一個僅僅精通渲染或僅僅精通規劃的模型，則做不到這一點。這是模擬器與其他兩類在能力上的本質差異。

第三類世界模型是規劃器，輸出是行動。給定一個觀測值和一個目標，規劃器需要回答的核心問題是：智能體下一步應該做什麼。

黃仁勳下一步不是芯片?"這些飆股"泄新野心

肺癌早期不是咳嗽,而是頻繁出現這3症狀

美股一夜蒸發萬億 "區區"17萬非農憑什麼

規劃器的職責是給智能體下達行動指令

在許多方面，這恰好是渲染器的逆向過程。渲染器以行動為輸入並產生觀測值，規劃器則以觀測值為輸入並產生行動，從而完成“感知—行動”的閉環。

視覺-語言-動作模型、基於模型的系統，以及新近興起的世界動作模型，本質上都屬於規劃器的嘗試。這些系統旨在讓機器人在非結構化世界中自主決定下一步動作，直接輸出一個可執行的決策。

這是最受關注的新興方向，與機器人學習領域緊密相連。過去兩年，各類機器人演示視頻頻頻引發關注：機械臂靈活抓取物體，雙足機器人在復雜地形上行走，機器人在桌面上完成精細操作等。

但李飛飛在文中指出，這些演示幾乎全部局限在嚴格受控的實驗室環境內，物體種類有限，任務周期很短。沒有任何一個系統在真實世界部署所需的復雜性、多變性或持久性方面得到過驗證。

盡管技術尚未成熟，商業層面的押注卻已開始。一批資金雄厚的新玩家正競相推出通用規劃系統。另一邊，大型基礎設施巨頭則已搭建起龐大的模擬平台，能處理從物理計算到環境生成的各種任務，現在正把規劃能力作為新功能加進去。

03 模擬器被低估了

在渲染、模擬、規劃這三個類別中，模擬器獲得的大眾關注最少，但它卻是三者中影響最深遠的一個。她的這篇文章，正是為了解決模擬器在關注度上的不對稱。

商業層面的想象空間同樣可觀。李飛飛在文章中直接提及英偉達的Omniverse平台，它所瞄准的工廠、倉庫、供應鏈和數字孿生領域，潛在市場規模超過一萬億美元。機器人訓練、自動駕駛測試、建築可視化、工程設計和藥物研發等等，都依賴於模擬形態的技術能力。

但模擬器面臨的挑戰也最為嚴峻。

首先是數據問題：包含顯式幾何、材料屬性和物理標注的三維數據，遠比渲染器訓練所依賴的互聯網視頻稀缺得多，相差以數量級計。互聯網上有取之不盡的視頻素材可以用來訓練渲染器，但帶有精確物理屬性的3D資產卻極其有限。

其次是長期存在的“模擬與現實差距”。無論模擬做得多麼精細，虛擬環境中的測試結果遷移到真實世界時，總會產生偏差。這個問題在機器人學和自動駕駛領域已經被反復討論，至今沒有完全解決。

此外，生成式模擬器還引入了新的風險。AI生成的幾何體看起來可能正確，但可能包含自相交或錯誤比例，一旦跑起物理模擬，就會產生荒謬的結果。

最後是計算成本的問題。在大規模多物理場景模擬中，剛體、可變形物體、流體和布料相互交織，其計算成本比單一領域的模擬高出太多。這意味著，即使有了足夠的數據和模型，運行這些模擬本身也是一項昂貴的工程。

李飛飛創辦的World Labs推出了Marble系統，這是朝“統一模擬”邁出的第一步。它接收文本、圖像、視頻或空間草圖等輸入，生成可交互的3D環境，同時輸出兩種結果：用於視覺呈現的高斯潑濺（Gaussian Splats），決定場景的視覺外觀；用於物理計算的碰撞網格（Collision Meshes），決定物體的空間邊界與碰撞響應。過去，視覺渲染和物理模擬是兩套獨立的系統，Marble把它們整合進了同一個模型。

Marble的出現讓模擬器第一次同時兼顧視覺呈現與物理結構。但正如李飛飛所說，這只是一個開始。

04 三條界限，正在消失

李飛飛的另一項核心判斷是：渲染、模擬、規劃這三個類別，正在開始相互融合。

推動這種融合的是一個共識——渲染一個世界、模擬一個世界以及在那個世界中采取行動所需要的知識，在很大程度上是通用的。

渲染、模擬和規劃三種能力的邊界正在消失，最終指向一個統一的世界模型：既能生成畫面，又能進行物理計算，還能自主決策

李飛飛用一個杯子的例子來說明這個觀點。一個模型如果真正理解杯子如何放在桌面上，就能同時做到三件事：從任意角度渲染這個杯子，模擬它被推倒的過程，並規劃一只手去將它撿起。

而這三類能力，是同一種底層理解的三個不同投影，也是一個完整的理解在不同場景下的不同輸出。

實際進展已經出現。李飛飛在文中提到了來自不同機器人實驗室的研究，研究表明，預訓練的視頻渲染器可以作為聯合世界預測與行動預測的骨幹網絡，意味著同一個模型既能“想象”接下來發生什麼，又能“決定”接下來做什麼，從而在渲染器與規劃器之間架起了一座橋梁。

她進一步指出，每一層都在從被動輸出走向交互系統。渲染器正在變得可由行動調節，不再是單向的“輸入文字、輸出畫面”，而是可以根據用戶的交互實時調整生成內容。模擬器生成的世界正在變得更可控和可編輯，用戶不再只是被動地觀看模擬場景，還可以介入和修改。規劃器則從單純的“做出反應”走向“深思熟慮”，能夠進行更長鏈條的推演和規劃。

這些趨勢的邏輯終點是一個統一的世界模型：一個既能渲染照片級真實視圖、又能產生物理精確結構、還能規劃行動序列的通用大模型，並可根據下游用戶的需求自由切換輸出模態。屆時，“渲染器”“模擬器”“規劃器”這些分類標簽本身將變得不再重要，因為它們只是同一個模型的不同用法。

當然，這個目標還遠未實現。數據圖譜仍然嚴重失衡，過度追求視覺美感，可能犧牲掉機器人或高保真模擬所需的物理精准度。如何在單一架構中調和這些沖突，是當今世界模型研究最核心的開放問題。

結語：空間智能的漫長弧線

文章結尾，李飛飛回到了一個從上世紀末延續至今的判斷：

也是整個AI領域一直在押注同一個判斷：一個足夠豐富的世界模型，就是一個智能體去觀察世界、建造世界並置身其中采取行動所需要的一切。

而今天，這個判斷已經出現融合的趨勢。

渲染、模擬、規劃，三條原本各自獨立的研究路線呈現出另外一面。隨著三者邊界的徹底坍縮，它們將共同重塑一個更宏大的命題：機器智能與它所棲息的物理世界之間的關系。

“語言賦予了機器談論這個世界的能力，”李飛飛在文末寫道，“而世界模型，將是機器最終用來理解、想象、推理並與這個世界進行交互的方式。”