| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

為什麼"從1數到10"這件事所有視頻模型都不會?


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
Midjourney 和 DALL-E 爆火的 2022 年,「手部多指」是當時文生圖最明顯的 Bug|圖片來源:Medium


公平地說,AI 在「畫手」這件事上已經取得了巨大進步。日常場景裡,六指人和軟糖手已經越來越少見了。

但 fofr 的測試之所以能讓所有模型集體翻車,是因為它只是一個視覺渲染問題,同時還暗含了一個邏輯推理問題。它要求在 10 秒內連續變換 10 個不同手勢,每個手勢的手指數量嚴格遞增,同時嘴裡說的數字還要對得上。


人的手有 27 塊骨骼、34 塊肌肉、超過 100 條韌帶,單個手掌就有 18 個自由度。即便采用高分辨率擴散模型,若缺乏明確的三維先驗知識,也難以表達這種精確度。



人體運動維度示意圖|圖片來源:ScienceDirect

況且,在訓練數據中,手通常出現在畫面邊緣、被物體遮擋或處於運動模糊中。模型能學到的高質量手部樣本遠少於面部。

第二類 AI 的能力盲區是物理規律。流體怎麼流、物體怎麼碰撞、織物怎麼飄……這些人類靠直覺就能判斷的東西,AI 視頻經常給出違反物理定律的答案。OpenAI 在發布 Sora 時的官方技術報告中就明確承認:Sora 無法准確模擬許多基本物理交互,比如玻璃破碎,也無法正確反映某些物體狀態變化。

第三類是時序邏輯的一致性。視頻不是一組彼此獨立的圖片,而是一條有因果關系的時間鏈:第 3 秒的畫面必須建立在第 2 秒的基礎上。但當前的擴散模型把時間當作一個潛在的數學維度來處理。它在生成第 N 幀時,沒有內部機制去「記住」前面伸了幾根手指、下一步該加 1。時間一長,前後就對不上了。

作個類比的話,當前的 AI 視頻模型像一個從沒見過真手的畫家,看了一百萬張手的照片之後憑印象畫手。大部分時候畫得挺像,但他不知道手指只有五根,不知道伸出三根手指代表數字 3,更不知道從 3 到 4 意味著要再伸出一根。


02另一條路:世界模型

既然問題的根源是「不理解物理世界」,那有沒有人在試圖從根本上解決這個問題?

事實上,這正在成為 AI 領域最受關注的新方向之一。一個正在凝聚共識的思路是:與其讓模型從海量視頻學習「世界看起來是什麼樣的」,不如讓它先理解「世界是怎麼運作的」。


這條路徑有一個共同的名字,叫做世界模型(world model)。世界模型的核心思路是讓 AI 建立對三維物理世界的結構性理解,包括空間的幾何關系、物體的物理屬性、運動的動力學規律等。

這就和當前視頻生成模型的路徑產生了本質區別。當前模型在二維平面上預測像素排列的統計概率,世界模型則試圖讓 AI 在「懂」物理規律的基礎上做生成。

這個方向最知名的創業者是李飛飛。這位 ImageNet 的締造者在 2024 年創辦了 World Labs,核心目標是讓 AI 擁有「空間智能」。她在去年的一篇長文中寫道:

「語言是人類認知的產物,但世界遵循更復雜的規則——重力控制運動,原子結構決定光線如何產生顏色,無數物理定律約束著每一次交互。要讓 AI 真正理解這一切,需要一種全新的、遠超大語言模型的架構」。

今年 2 月,World Labs 完成了 10 億美元融資,其首個產品 Marble 已經上線,可以從圖像或文本生成持久的 3D 環境。


1     這條新聞還沒有人評論喔,等著您的高見呢
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0195 秒 and 5 DB Queries in 0.0013 秒