为什么"从1数到10"这件事所有视频模型都不会?

2026-03-08 | 来源: 极客公园 | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

AI 已经学会了电影的视觉语法，但还没学会世界的物理语法。

头图来源：Nano Banana

作者｜汤一涛

编辑｜靖宇

Seedance 2.0 有多猛，过去一个月大家已经见识过了。好莱坞已经集体下场发了声明，西半球最强法务部迪士尼也给字节跳动发了律师函。

但如果你让它做一件事：生成一个男人从 1 数到 10 的视频，它就露馅了。

生成出来的「人」五官端正、皮肤质感逼真，厨房背景细节丰富得像是实拍。他说出「one」的时候还一切正常，然后就开始鬼打墙，嘴里不断重复「t、t、t」这个音节（不是从 1 到 10 中任何一个数字的发音）；或者伸出三根手指，口中却自信地说出「ten」。从头到尾，他竖起的手指没超过三根。

因为背景和人物都太真实了，所以手指崩坏的瞬间反而制造出了一种强烈的「伪人感」。

这道题不只是 Seedance 2.0 的噩梦。

视频来自一位在 X 网友 fofr（简介显示是在 DeepMind 的开发者）。去年他就发现，「从 1 数到 10 并用手指比出数字」这个对三岁小孩都毫无难度的任务，是当前所有 AI 视频模型的共同死穴。

一层楼一半都是自助,为什么商场里自助餐越来越多?

潜伏逢场作戏的晚秋为什么馋余则成身体,主要几点原因?

父母爱情:江昌义为什么惹人厌?行为说明一切,辜负了江德福

Seedance 2.0 发布后，他第一时间把这道老题扔了过去，果然也翻车了。

网友在这条推文下面掀起了一场自发的「AI 数数挑战赛」。他们把同一道题喂给了 Sora、Veo、Kling 等几乎所有主流模型，结果全军覆没，没有一个能正确地从 1 数到 10。

当一个行业最强的产品们被一道幼儿园级别的题目集体难倒，这其实指向了一个问题：为什么这些模型已经能骗过你的眼睛，却无法理解常识？

它们到底「理解」了什么，又缺失了什么？

01统计预测 vs 理解世界：AI 视频的能力边界

「数不到 10」不是一个孤立的 bug，它揭示了一整片当前 AI 的能力盲区。

原因也不复杂：所有的视频模型本质上做的是同一件事，从海量视频数据中学习统计规律，然后在生成每一帧画面时预测「接下来什么样的像素排列最可能出现」。这和大语言模型的「预测下一个词」（Next-Token Prediction）是同一套逻辑。

所以它们能把人脸毛孔、厨房光影、衣服褶皱渲染得以假乱真，因为训练数据里有海量样本，统计规律足够丰富。但一旦任务超出了样本的范畴，进入「常识」的领域，问题就来了。

这些问题大致可以分成三类。

首先就是手部精细动作，这是最广为人知的「AI 照妖镜」。从图像生成时代的「六指人」，到视频生成时代的「软糖手指」，手一直是 AI 的噩梦。