| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

不是什麼都叫"世界模型",李飛飛給出新定義


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!



斯坦福大學AI科學家、World Labs創始人李飛飛。圖片經由AI處理

文丨謝瑞瑞


編輯丨徐青陽

“世界模型”是過去兩年AI領域最常被提及的概念之一,但它的含義正在變得越來越模糊。

視頻生成模型、語言模型,甚至連物理引擎都能自稱是世界模型。

斯坦福大學AI科學家、World Labs創始人李飛飛於6月4日撰文,專門回應這種混亂。她開篇便給出判斷:世界模型是當今AI領域最重要、也最被濫用的術語之一。

她在文中寫道,連古希臘人都沒給“世界”下過一個統一、公認的定義。“世界”從來不是一個具體的事物,今天,AI也繼承了同樣的問題——世界模型的邊界在哪裡?

李飛飛的解決思路很明確:先分清世界模型的三個核心功能——渲染、模擬、規劃。

01 理解世界模型的鑰匙,是一張舊圖

在展開論述之前,李飛飛先回顧了一張在強化學習領域使用了幾十年的框架圖:部分可觀測馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP)。這個框架的名稱很復雜,但邏輯卻簡明。



李飛飛將目前的世界模型系統分為三類,分別是渲染器、模擬器以及規劃器

它描述的是一個循環:智能體采取行動,行動改變世界的狀態,智能體從環境中獲得觀測值,再依據觀測采取下一步行動。循環持續進行。

文中的“狀態”,指的是物理學和機器人學中的概念:在某個時刻對世界狀況的完整描述,涵蓋每一個物體、每一個位置、每一組速度和每一項屬性,對身處其中的任何智能體而言,永遠無法被完全直接感知。我們能得到的,只是對現實的部分觀測。

李飛飛進一步指出,這個由“智能體—行動—狀態—觀測—回到智能體”構成的閉環,賦予了現代世界模型真正的技術內核。

“世界模型”概念,最早可以追溯到1943年,由心理學家肯尼斯·克雷克(Kenneth Craik)在1943年提出,即大腦通過運行現實的“小規模模型”來進行推理。到了20世紀80年代末、90年代初,這個概念被引入神經網絡研究。而今天,所有被稱為世界模型的事物,本質上都是同一個循環在不同方向上的投影,每一類只輸出循環中的一個片段。

02 三類世界模型:渲染器、模擬器與規劃器

李飛飛認為,當前所有自稱世界模型的系統可分為三類:渲染器、模擬器和規劃器。

第一類世界模型是渲染器。它的輸出是供人眼觀看的像素,核心評估指標是視覺逼真度。





渲染器主要負責生成視覺畫面,最主要的考核標准是逼真度

能將文本提示轉化為電影級航拍鏡頭的視頻生成模型屬於這一類,谷歌的Genie 3、World Labs自研的RTFM等交互式生成系統也在此列。這類模型對三維結構沒有顯式理解,它們生成的是觀眾“會看到什麼”,而不是“現實本身是什麼”。

李飛飛在文中舉了一個例子:航拍鏡頭中的建築從上方看可能完美無缺,但如果試圖驅車穿過下方的城市,畫面就會分崩離析。原因很簡單,渲染器的契約純粹是視覺上的,它並不對畫面背後的物理結構承擔任何責任。

渲染器是當前商業落地最成熟的一類世界模型。谷歌的Nano Banana已經將渲染級別的圖像生成能力交付到數億用戶手中。

但它的天花板同樣清晰——渲染器優化的是視覺合理性,而非物理准確性。它的輸出令人贊歎,但不能被信賴去設計建築或訓練機器人。李飛飛對此總結道:渲染器的輸出固然美麗,但你無法信任它們去承擔那些與現實世界緊密結合的任務。

第二類世界模型是模擬器。它輸出的不是像素,而是狀態,是一種在幾何、物理和動力學層面高度保真的世界表征。



模擬器的職責是構建符合物理規則的三維結構

模擬器的契約是結構性的:幾何必須經得起審視,物理必須尊重客觀規律,動力學表現必須符合現實約束。

它同時服務於兩類受眾:一類是人類專業人士,包括建築師、設計師、電影制作人和游戲開發者;另一類是計算機程序,包括強化學習智能體、機器人控制器和自動駕駛汽車,它們將模擬器作為訓練場,測試那些在現實中過於危險或昂貴的場景。

李飛飛在文中有這樣一段論述:如果說語言是對世界的一種抽象描述,像素是對世界的一種視覺投影,那麼幾何、物理和動力學才是世界的本來面目。模擬器必須建立在這個層面之上。

她舉例說,模擬器生成的幾何結構和物理規則就像一副骨骼——渲染器所需要的視覺外觀、規劃器所依賴的行動後果,都是從這副骨骼上生長出來的。

這意味著,一個精通模擬的模型,可以將其理解轉化為供人觀看的像素,也可以轉化為供具身智能體使用的行動預測。而一個僅僅精通渲染或僅僅精通規劃的模型,則做不到這一點。這是模擬器與其他兩類在能力上的本質差異。

第三類世界模型是規劃器,輸出是行動。給定一個觀測值和一個目標,規劃器需要回答的核心問題是:智能體下一步應該做什麼。




規劃器的職責是給智能體下達行動指令



在許多方面,這恰好是渲染器的逆向過程。渲染器以行動為輸入並產生觀測值,規劃器則以觀測值為輸入並產生行動,從而完成“感知—行動”的閉環。

視覺-語言-動作模型、基於模型的系統,以及新近興起的世界動作模型,本質上都屬於規劃器的嘗試。這些系統旨在讓機器人在非結構化世界中自主決定下一步動作,直接輸出一個可執行的決策。

這是最受關注的新興方向,與機器人學習領域緊密相連。過去兩年,各類機器人演示視頻頻頻引發關注:機械臂靈活抓取物體,雙足機器人在復雜地形上行走,機器人在桌面上完成精細操作等。

但李飛飛在文中指出,這些演示幾乎全部局限在嚴格受控的實驗室環境內,物體種類有限,任務周期很短。沒有任何一個系統在真實世界部署所需的復雜性、多變性或持久性方面得到過驗證。

盡管技術尚未成熟,商業層面的押注卻已開始。一批資金雄厚的新玩家正競相推出通用規劃系統。另一邊,大型基礎設施巨頭則已搭建起龐大的模擬平台,能處理從物理計算到環境生成的各種任務,現在正把規劃能力作為新功能加進去。

03 模擬器被低估了

在渲染、模擬、規劃這三個類別中,模擬器獲得的大眾關注最少,但它卻是三者中影響最深遠的一個。她的這篇文章,正是為了解決模擬器在關注度上的不對稱。

商業層面的想象空間同樣可觀。李飛飛在文章中直接提及英偉達的Omniverse平台,它所瞄准的工廠、倉庫、供應鏈和數字孿生領域,潛在市場規模超過一萬億美元。機器人訓練、自動駕駛測試、建築可視化、工程設計和藥物研發等等,都依賴於模擬形態的技術能力。

但模擬器面臨的挑戰也最為嚴峻。


首先是數據問題:包含顯式幾何、材料屬性和物理標注的三維數據,遠比渲染器訓練所依賴的互聯網視頻稀缺得多,相差以數量級計。互聯網上有取之不盡的視頻素材可以用來訓練渲染器,但帶有精確物理屬性的3D資產卻極其有限。

其次是長期存在的“模擬與現實差距”。無論模擬做得多麼精細,虛擬環境中的測試結果遷移到真實世界時,總會產生偏差。這個問題在機器人學和自動駕駛領域已經被反復討論,至今沒有完全解決。

此外,生成式模擬器還引入了新的風險。AI生成的幾何體看起來可能正確,但可能包含自相交或錯誤比例,一旦跑起物理模擬,就會產生荒謬的結果。

最後是計算成本的問題。在大規模多物理場景模擬中,剛體、可變形物體、流體和布料相互交織,其計算成本比單一領域的模擬高出太多。這意味著,即使有了足夠的數據和模型,運行這些模擬本身也是一項昂貴的工程。

李飛飛創辦的World Labs推出了Marble系統,這是朝“統一模擬”邁出的第一步。它接收文本、圖像、視頻或空間草圖等輸入,生成可交互的3D環境,同時輸出兩種結果:用於視覺呈現的高斯潑濺(Gaussian Splats),決定場景的視覺外觀;用於物理計算的碰撞網格(Collision Meshes),決定物體的空間邊界與碰撞響應。過去,視覺渲染和物理模擬是兩套獨立的系統,Marble把它們整合進了同一個模型。

Marble的出現讓模擬器第一次同時兼顧視覺呈現與物理結構。但正如李飛飛所說,這只是一個開始。

04 三條界限,正在消失

李飛飛的另一項核心判斷是:渲染、模擬、規劃這三個類別,正在開始相互融合。

推動這種融合的是一個共識——渲染一個世界、模擬一個世界以及在那個世界中采取行動所需要的知識,在很大程度上是通用的。





渲染、模擬和規劃三種能力的邊界正在消失,最終指向一個統一的世界模型:既能生成畫面,又能進行物理計算,還能自主決策

李飛飛用一個杯子的例子來說明這個觀點。一個模型如果真正理解杯子如何放在桌面上,就能同時做到三件事:從任意角度渲染這個杯子,模擬它被推倒的過程,並規劃一只手去將它撿起。

而這三類能力,是同一種底層理解的三個不同投影,也是一個完整的理解在不同場景下的不同輸出。

實際進展已經出現。李飛飛在文中提到了來自不同機器人實驗室的研究,研究表明,預訓練的視頻渲染器可以作為聯合世界預測與行動預測的骨幹網絡,意味著同一個模型既能“想象”接下來發生什麼,又能“決定”接下來做什麼,從而在渲染器與規劃器之間架起了一座橋梁。

她進一步指出,每一層都在從被動輸出走向交互系統。渲染器正在變得可由行動調節,不再是單向的“輸入文字、輸出畫面”,而是可以根據用戶的交互實時調整生成內容。模擬器生成的世界正在變得更可控和可編輯,用戶不再只是被動地觀看模擬場景,還可以介入和修改。規劃器則從單純的“做出反應”走向“深思熟慮”,能夠進行更長鏈條的推演和規劃。

這些趨勢的邏輯終點是一個統一的世界模型:一個既能渲染照片級真實視圖、又能產生物理精確結構、還能規劃行動序列的通用大模型,並可根據下游用戶的需求自由切換輸出模態。屆時,“渲染器”“模擬器”“規劃器”這些分類標簽本身將變得不再重要,因為它們只是同一個模型的不同用法。

當然,這個目標還遠未實現。數據圖譜仍然嚴重失衡,過度追求視覺美感,可能犧牲掉機器人或高保真模擬所需的物理精准度。如何在單一架構中調和這些沖突,是當今世界模型研究最核心的開放問題。

結語:空間智能的漫長弧線

文章結尾,李飛飛回到了一個從上世紀末延續至今的判斷:

也是整個AI領域一直在押注同一個判斷:一個足夠豐富的世界模型,就是一個智能體去觀察世界、建造世界並置身其中采取行動所需要的一切。

而今天,這個判斷已經出現融合的趨勢。

渲染、模擬、規劃,三條原本各自獨立的研究路線呈現出另外一面。隨著三者邊界的徹底坍縮,它們將共同重塑一個更宏大的命題:機器智能與它所棲息的物理世界之間的關系。

“語言賦予了機器談論這個世界的能力,”李飛飛在文末寫道,“而世界模型,將是機器最終用來理解、想象、推理並與這個世界進行交互的方式。”
不錯的新聞,我要點贊     還沒人說話啊,我想來說幾句
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
      大家正在圍觀
    周末大溫超市優惠搶先看 掃貨指南
    家族豪捐4千萬 SFU醫學院直接改名
    豪賭世界杯 溫村短租房東砸手裡了
    下周五起 加國手機這三筆雜費全免
    門鈴驚醒BC女子 狂按CPR救活鄰居
    拖欠貸款 本拿比中產神盤項目爆雷
    雙拼變三層巨無霸 加國鄰居破防了
    可坐大巴去這欣賞浪漫薰衣草花海
    世界杯足球賽溫哥華超多活動匯總
    太平洋異變!全球"燒烤模式"預警
      同類熱門新聞
    家裡破產後,華誼公主王文也面相都
    王菲沒想到,李嫣竟成了李亞鵬的"
    董璇高雲翔離婚6年重修舊好 為娛
    唐國強承認與劉曉慶關系,曾志偉吃
    梅根發布女兒生日照,紅發綠裙神似
    "豪門贅婿"已成過去式,竇驍回歸演
    歌手2026 星二代竇靖童證明基因這
    謝霆鋒王菲秀恩愛,張柏芝口碑就暴
    著名演員從發病到去世僅20分鍾 兒
    官方下場!怒斥內娛亂象,劉濤鄭愷
      隨時閱讀新聞

    加西網微信

    大溫優惠小紅書

    溫哥華地產中心微信

    Android: 加西網
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0260 秒 and 5 DB Queries in 0.0078 秒