马斯克: 马斯克加入 "视觉模型"是下个"大语言模型"?

2025-10-12 | 来源: 硬AI | 转到微信 | 有0人参与评论 | 字体: 放大缩小 | 收藏 | 打印

谷歌的研究人员Jack Clark在论文中写道：“我们认为，正如自然语言处理（NLP）从特定任务模型转向通用模型一样，机器视觉领域也可能通过视频模型发生同样的转变——一个‘视觉领域的GPT-3时刻’。”

他们将视频逐帧生成的过程类比为语言模型中的“思维链”（chain-of-thought），并称之为“帧链”（chain-of-frames），认为这使得视频模型能够跨越时空进行推理。

这一发现意义深远，它暗示着通过发展更智能的视频模型，人们或许能够获得能力极强的机器人“代理”（agent）。

前景与现实：高昂的成本与“愿景”的缺失

尽管前景诱人，但通往世界模型的道路并非坦途。目前，该技术仍面临巨大的技术挑战，其中最主要的是为模拟真实世界寻找和处理足够训练数据的成本极其高昂。

AI太耗电,美国电网不堪重负怎么办?马斯克:储能

科技富豪的"教育帝国梦":马斯克扩张,扎克伯格退场...

潜在商机堪比全球经济规模马斯克xAI打造"世界模型"

与此同时，业界也存在对AI作用的冷静审视。热门游戏《博德之门3》的开发商Larian Studios的发行主管Michael Douse本周在X上表示，AI无法解决游戏行业的“大问题”，即“领导力和愿景”。

他补充说，行业需要的不是“更多由数学方式生产、经过心理学训练的游戏循环”，而是对世界更多样化的表达。这代表了一种普遍的观点：纯粹的技术突破本身，并不能保证创造出能够真正打动人心的商业产品。

尽管挑战重重，但xAI的入局无疑为世界模型的竞赛再添一把火。

AI的焦点正不可逆转地从纯粹的数字信息处理，转向对复杂物理现实的模拟与交互。视觉模型是否能复刻大语言模型的辉煌，迎来属于自己的“GPT时刻”，不仅将决定下一代AI霸主的归属，更可能重塑我们与数字及物理世界的根本关系。