| 廣告聯系 | 簡體版 | 手機版 | 微信 | 微博 | 搜索:
歡迎您 游客 | 登錄 | 免費注冊 | 忘記了密碼 | 社交賬號注冊或登錄

首頁

溫哥華資訊

溫哥華地產

溫哥華教育

溫哥華財稅

新移民/招聘

黃頁/二手

旅游

為什麼"從1數到10"這件事所有視頻模型都不會?


請用微信 掃一掃 掃描上面的二維碼,然後點擊頁面右上角的 ... 圖標,然後點擊 發送給朋友分享到朋友圈,謝謝!
AI 已經學會了電影的視覺語法,但還沒學會世界的物理語法。




頭圖來源:Nano Banana


作者|湯一濤

編輯|靖宇

Seedance 2.0 有多猛,過去一個月大家已經見識過了。好萊塢已經集體下場發了聲明,西半球最強法務部迪士尼也給字節跳動發了律師函。

但如果你讓它做一件事:生成一個男人從 1 數到 10 的視頻,它就露餡了。

生成出來的「人」五官端正、皮膚質感逼真,廚房背景細節豐富得像是實拍。他說出「one」的時候還一切正常,然後就開始鬼打牆,嘴裡不斷重復「t、t、t」這個音節(不是從 1 到 10 中任何一個數字的發音);或者伸出三根手指,口中卻自信地說出「ten」。從頭到尾,他豎起的手指沒超過三根。

因為背景和人物都太真實了,所以手指崩壞的瞬間反而制造出了一種強烈的「偽人感」。

這道題不只是 Seedance 2.0 的噩夢。

視頻來自一位在 X 網友 fofr(簡介顯示是在 DeepMind 的開發者)。去年他就發現,「從 1 數到 10 並用手指比出數字」這個對三歲小孩都毫無難度的任務,是當前所有 AI 視頻模型的共同死穴。


Seedance 2.0 發布後,他第一時間把這道老題扔了過去,果然也翻車了。

網友在這條推文下面掀起了一場自發的「AI 數數挑戰賽」。他們把同一道題喂給了 Sora、Veo、Kling 等幾乎所有主流模型,結果全軍覆沒,沒有一個能正確地從 1 數到 10。

當一個行業最強的產品們被一道幼兒園級別的題目集體難倒,這其實指向了一個問題:為什麼這些模型已經能騙過你的眼睛,卻無法理解常識?

它們到底「理解」了什麼,又缺失了什麼?


01統計預測 vs 理解世界:AI 視頻的能力邊界

「數不到 10」不是一個孤立的 bug,它揭示了一整片當前 AI 的能力盲區。

原因也不復雜:所有的視頻模型本質上做的是同一件事,從海量視頻數據中學習統計規律,然後在生成每一幀畫面時預測「接下來什麼樣的像素排列最可能出現」。這和大語言模型的「預測下一個詞」(Next-Token Prediction)是同一套邏輯。

所以它們能把人臉毛孔、廚房光影、衣服褶皺渲染得以假亂真,因為訓練數據裡有海量樣本,統計規律足夠豐富。但一旦任務超出了樣本的范疇,進入「常識」的領域,問題就來了。

這些問題大致可以分成三類。

首先就是手部精細動作,這是最廣為人知的「AI 照妖鏡」。從圖像生成時代的「六指人」,到視頻生成時代的「軟糖手指」,手一直是 AI 的噩夢。


1     無評論不新聞,發表一下您的意見吧
上一頁123下一頁
注:
  • 新聞來源於其它媒體,內容不代表本站立場!
  • 在此頁閱讀全文
    猜您喜歡:
    您可能也喜歡:
    我來說兩句:
    評論:
    安全校驗碼:
    請在此處輸入圖片中的數字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西網為北美中文網傳媒集團旗下網站

    頁面生成: 0.0190 秒 and 5 DB Queries in 0.0017 秒