| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

为什么"从1数到10"这件事所有视频模型都不会?


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
AI 已经学会了电影的视觉语法,但还没学会世界的物理语法。




头图来源:Nano Banana


作者|汤一涛

编辑|靖宇

Seedance 2.0 有多猛,过去一个月大家已经见识过了。好莱坞已经集体下场发了声明,西半球最强法务部迪士尼也给字节跳动发了律师函。

但如果你让它做一件事:生成一个男人从 1 数到 10 的视频,它就露馅了。

生成出来的「人」五官端正、皮肤质感逼真,厨房背景细节丰富得像是实拍。他说出「one」的时候还一切正常,然后就开始鬼打墙,嘴里不断重复「t、t、t」这个音节(不是从 1 到 10 中任何一个数字的发音);或者伸出三根手指,口中却自信地说出「ten」。从头到尾,他竖起的手指没超过三根。

因为背景和人物都太真实了,所以手指崩坏的瞬间反而制造出了一种强烈的「伪人感」。

这道题不只是 Seedance 2.0 的噩梦。

视频来自一位在 X 网友 fofr(简介显示是在 DeepMind 的开发者)。去年他就发现,「从 1 数到 10 并用手指比出数字」这个对三岁小孩都毫无难度的任务,是当前所有 AI 视频模型的共同死穴。


Seedance 2.0 发布后,他第一时间把这道老题扔了过去,果然也翻车了。

网友在这条推文下面掀起了一场自发的「AI 数数挑战赛」。他们把同一道题喂给了 Sora、Veo、Kling 等几乎所有主流模型,结果全军覆没,没有一个能正确地从 1 数到 10。

当一个行业最强的产品们被一道幼儿园级别的题目集体难倒,这其实指向了一个问题:为什么这些模型已经能骗过你的眼睛,却无法理解常识?

它们到底「理解」了什么,又缺失了什么?


01统计预测 vs 理解世界:AI 视频的能力边界

「数不到 10」不是一个孤立的 bug,它揭示了一整片当前 AI 的能力盲区。

原因也不复杂:所有的视频模型本质上做的是同一件事,从海量视频数据中学习统计规律,然后在生成每一帧画面时预测「接下来什么样的像素排列最可能出现」。这和大语言模型的「预测下一个词」(Next-Token Prediction)是同一套逻辑。

所以它们能把人脸毛孔、厨房光影、衣服褶皱渲染得以假乱真,因为训练数据里有海量样本,统计规律足够丰富。但一旦任务超出了样本的范畴,进入「常识」的领域,问题就来了。

这些问题大致可以分成三类。

首先就是手部精细动作,这是最广为人知的「AI 照妖镜」。从图像生成时代的「六指人」,到视频生成时代的「软糖手指」,手一直是 AI 的噩梦。


1     无评论不新闻,发表一下您的意见吧
上一页123下一页
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 在此页阅读全文
    猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0192 秒 and 5 DB Queries in 0.0013 秒