| 广告联系 | 繁体版 | 手机版 | 微信 | 微博 | 搜索:
欢迎您 游客 | 登录 | 免费注册 | 忘记了密码 | 社交账号注册或登录

首页

温哥华资讯

温哥华地产

温哥华教育

温哥华财税

新移民/招聘

黄页/二手

旅游

印度: 印度工人头戴摄像头 边打工边教机器人抢自己饭碗


请用微信 扫一扫 扫描上面的二维码,然后点击页面右上角的 ... 图标,然后点击 发送给朋友分享到朋友圈,谢谢!
最近,一段来自印度(专题)南部服装厂的视频在国内外社交平台上疯传。


画面里,流水线上的工人正在低头缝纫,和普通的工厂场景没什么两样,除了一件事——每个人头上都戴着一个摄像头环。




评论区吵成了两派。一派说这是老板在监视员工,抓人摸鱼的新花样;另一派说不对,这是在给机器人喂数据。

两派说法都很地狱,但后者,才是整件事真正让人坐立不安的地方。

01.打工人正在被录像存档

那个戴着摄像头环的工人,正在做的事情有个技术名词,叫采集"Ego 数据",全称是“第一人称视角数据”。

逻辑很简单:把摄像头架在头顶,记录下工人干活时的第一视角,手怎么抬、怎么落、怎么捏住一根线穿过针眼。每一帧画面,都会变成喂给 AI 模型的训练素材。

工人的双手,成了机器人的老师。



亲手教会机器人取代自己。普通人听到这种事会感受到一种生理性的冒犯,但业内对此很兴奋,因为这种方式,实在太!便!宜!了!

过去,机器人行业训练模型的主流方式叫"真机遥操",听上去很科幻,操作起来其实很笨重:一个工程师戴上 VR 头显,眼前的画面同步到机器人的摄像头视角,然后他要像遥控玩具一样,手把手地控制机器人的每一个动作——拿起这个杯子,放到那个托盘上,再拿起那块布,折叠,放好。整个过程一帧一帧地被录下来,这就是训练数据。



这套方案最大的问题是贵,而且慢。

一台用于数采的机器人本体,动辄几十万。还得配专职的数采员,培训上岗,全程盯着。采集一条高质量的操作数据,可能要耗掉工程师大半天时间,工程师的工资又很高。



Ego 数据方案把这套流程从根上改了:工人戴上头顶的摄像头,绑上腕部的追踪器(有些方案还会配一副特制手套)。换装完毕,正常上工就行。

这三层设备各有分工。头戴摄像头负责记录第一视角的完整画面——操作台的布局、物体的位置、手和目标物之间的空间关系;腕部摄像头对准手部,专门捕捉手在近距离操作时的细节;穿戴手套则完全不依赖视觉,直接用传感器测量每根手指的关节角度。



三层叠加,就还原了一个完整的操作动作——人的眼睛看到了什么、手在哪里、手指该怎么动。通过这些样本,机器人可以学习从视觉到动作的映射关系,即看到某个画面时,应该做些什么。

这里面有一个小 bug,机器人学谁,就像谁。

如果被采集的工人是个熟练工,动作干脆、力道精准,那机器人学出来的就是一套行云流水的操作。可万一这位工人习惯摸鱼,比如拧螺丝前先挠挠头,放零件时要抖两下手腕,甚至一边干活一边东张西望……那机器人也会把这些多余的动作当成标准流程学进去。



所以视频里,整个车间只有一排工人头上戴了摄像头,或许,他们是整个车间选出来的最好的工人。

还有更简单粗暴的方式,是只筛选数据,不筛选人。美国有一家叫做 Generalist AI 的公司,他们用众包的方式,把低成本穿戴设备分发给世界各地的普通人。不管是你在家折衣服、在厨房洗碗,还是在修车铺拧螺丝,只要戴上设备,人人皆可边干活边采数据。

业内对此充满了怀疑,普通人在家里采出来的数据,质量根本没法和专业数采中心比,怎么能训练出高成功率的模型?

答案是大力出奇迹。海量的原始数据进来,系统自动筛选,低质量的直接丢掉,只留下那些三层数据对得上的高置信度样本。数据量足够大,过滤完还剩得够多,就能用。





所以越来越多的数采方案开始强调"轻量化",设备越做越小,目标就是让采集完全融入日常工作,对工人的动作干扰降到零。业内已经有团队在研究把摄像头集成进普通眼镜,手套也在往更轻薄的方向迭代,最终形态可能是一副眼镜加一块手表,穿上就采,看不出来和普通上班有什么区别。

这张采集数据网正在全球快速铺开。硅谷的实验室、东南亚的代工厂、北美的物流分拣中心、欧洲的家庭厨房里,成千上万个传感器正如同毛细血管般伸向人类的日常。这种生意已经催生出了专门的“数据供应商”。比如许多公司正在推广的通用移动接口(UMI)方案,它彻底切断了数据与特定机器人硬件的绑定。有测算显示,这种脱离了昂贵真机、只靠穿戴设备的采集方式,单条数据的生产成本仅为传统方案的五分之一,效率却翻了五倍。



印度工厂那个画面,只是这张大网上,一个最先被普通人看见的节点。

而这种近乎掠夺式的大规模采集,背后折射出的是一个令 AI 巨头们焦虑的真相:机器人没“米”下锅了!

02.机器人也有数据荒

在数字世界里,AI 是衔着金汤勺出生的。

大语言模型的训练素材来自整个互联网。几十年来人类随手丢在网上的文字、代码、新闻、甚至论坛里的废话帖子,对 GPT 们来说都是取之不尽的养分。只要算力足够,AI 能在几天内读完人类几千年的文明。

但机器人需要的数据完全是另一回事:每一次抓取、放置、翻转,都必须真实发生在物理世界里,没办法从网上下载,更无法批量复制。

这就是为什么机器人马拉松比赛中,那些重金打造的顶级人形机器人,还是会在走路时突然摔跟头,看起来很不聪明的样子。




那用仿真数据不行吗?在电脑里搭一个虚拟工厂,让机器人在里面反复练,不就解决了?

确实有人这么做,有效果,但有个绕不过去的问题,业内叫"sim-to-real gap"(仿真到现实的鸿沟)。虚拟世界里的物理规则是被简化过的,光线是理想的,桌面是平的,物体的摩擦力是预设的;而真实世界里,同一块布料每次堆叠的形态都不一样,同一个零件每次放置的角度都有偏差。在仿真世界里练了一万次的机器人,搬到真实车间,往往还是一脸懵。

所以真实世界的操作数据,是无论都如何绕不开的。

行业里有一个着名的数据金字塔。最底层是互联网上现成的视频和图片,量大管够,但精度太低,机器人看着人类做饭的 YouTube 视频,顶多学个大概方向。往上一层是专门采集的人类动作捕捉数据,需要穿戴设备,成本高一些,质量也好一些。塔尖是真机遥操数据,精度最高,接近机器人实际执行时的视角,数量最少,采集速度慢得像在手工打字,供给完全跟不上模型的需求。





机器人的数据困境有多夸张呢?有个数字可以感受一下。目前机器人领域头部开源数据集 OpenX-Embodiment,汇聚了全球 22 种不同机器人本体、311 个场景下的 100 万条操作轨迹。听起来挺壮观,但大语言模型的训练数据动辄万亿 token,和 100 万放在一起,差了整整六个数量级。

真机遥操还有另外一个麻烦,数据和硬件强绑定。

过去大多数操作数据,都是用特定型号的机器人采集的。A 型机械臂的数据,很难直接拿去训练 B 型机械臂。机械臂的关节结构不同、末端夹爪的形状不同、摄像头的位置不同,同样的"拿起杯子"这个动作,在两种机器人身上对应的运动轨迹可以完全不一样。换一款硬件,数据就得重新采,等于每次升级硬件,都要回到原点重新开始。



要打破这个僵局,就需要把数据和机器解绑。比如不依赖特定型号的机器人,直接从人身上采集操作数据——无本体数据。

因为人类做“拿起杯子”这个动作,其手部轨迹(位置、姿态)是相对于世界坐标系或自身躯干的,可以通过运动学映射转换到不同几何尺寸和关节配置的机械臂上。数据采一次,可以反复用在不同硬件上。

更重要的是,这种采集方式成本足够低,可以轻松覆盖大量不同的真实场景。研究人员做过测试,同样数量的数据,分布在 32 个不同环境、每个环境各 50 条,比全部集中在一个环境的 1600 条,训练出来的模型泛化能力强得多。


机器人需要见过足够多"不一样的世界",才能在一个从没见过的新场景里不慌不乱。这也是为啥 Ego 数据方案这么强调要在真实场景里采集。不同的工厂、不同的操作台、不同的工人,每一个细微的差异,对模型来说都是养分。



今年4月,Generalist 发布 GEN-1。这款模型用 50 万小时人类操作视频训练而成,效果相当惊人:在折纸箱、手机装盒等任务上,平均成功率从 64% 直接拉到 99%,速度也比上一代提升了三倍。



更关键的是,新任务只需 1 小时真机数据就能完成迁移。吸收人类数据之后,机器人学习一个新技能的门槛大幅下降了。

技术进步的速度令人振奋。但我们作为围观的打工人,感受大概完全不同——好像在帮未来的自己培养竞争对手?

03.技术进化,还是技能剥离?

视野回到那家印度服装厂吧!

这里有一个矛盾,仔细想想会有点微妙:一个缝纫工人越熟练,动作越标准,他采集出的数据质量就越高,训练出的机器人就越容易学会这项技能。他正在用自己的手艺,教一个永远不会累、永远不会离职的“学生”。

他们是最核心的知识提供者,但在价值的分配链条上,位置却并不靠前。



这种“底层劳动支撑顶层技术”的现象,其实不是第一次出现。

2010 年前后,一位斯坦福大学的教授带着团队在做一件事:给全世界的图片打标签。猫、狗、椅子、汽车,一张图片标注一个类别。这个项目叫 ImageNet,后来被证明是深度学习革命最重要的燃料之一,几乎所有现代 AI 视觉模型都从它那里汲取过养分。

打标签的人,是一批通过亚马逊众包平台 Mechanical Turk 招募来的工人,大量来自东南亚非洲,时薪约两美元。他们坐在屏幕前,一张一张地点、标注、提交,日复一日。ImageNet 最终收录了超过 1400 万张图片,背后是无数个这样的工时叠加起来的。

这位教授后来成了 AI 领域最有影响力的学者之一,ImageNet 催生的产业价值难以估量。但那些打标签的工人,还是拿着两美元的时薪。



历史正在翻开新的一页。数据采集的规模快速扩大,已经形成了一条完整的产业链。上游是穿戴设备的硬件厂商,做头戴摄像头、腕部追踪器、力感应手套;中游是数采方案和数据清洗服务商,帮客户设计采集流程、过滤低质量数据、把原始视频处理成模型可以直接消化的格式;下游是购买数据来训练模型的具身智能公司,多家科技巨头都在加速入场。

而触觉数据是下一个战场。

仅靠视觉和轨迹数据,机器人还学不会那些需要感知物体软硬、表面纹理的精细动作——捏一个熟透的桃子和一个生桃子,力道完全不一样,但摄像头看不出来。拧一颗螺丝,拧到几成力才算到位,眼睛同样判断不了。已经有公司在数采方案里加入了六维力传感器,实时采集接触时的压力方向和大小。

或许很快机器人就可以像科幻电影中那样,自然而然地帮助人类做各种各样的事情,从精细的家务到复杂的维修,从照顾老人到探索险境。





对于那些因为长期重复动作而落下腱鞘炎、颈椎病的流水线工人来说,这当然是一个好消息,技术本身不是敌人。我们真正需要关心的,是技术创造的价值能不能让创造它的人一起受益。

如果说工业革命的机器是人类体力的延伸,那么现在的具身智能就是人类直觉的复现。这种进化不该是以一部分人的退场为代价,而应当是一次全人类的共同升级。

盖好房子之后,不要忘记打地基的人。让那些曾在烟尘与轰鸣中辛劳的双手,最终能从繁琐中解脱出来,转而去拥抱生活里更多触手可及的温度。

这或许才是技术发展最完美的终点:由人筑基,为人所用。
觉得新闻不错,请点个赞吧     还没人说话啊,我想来说几句
注:
  • 新闻来源于其它媒体,内容不代表本站立场!
  • 猜您喜欢:
    您可能也喜欢:
    我来说两句:
    评论:
    安全校验码:
    请在此处输入图片中的数字
    The Captcha image
    Terms & Conditions    Privacy Policy    Political ADs    Activities Agreement    Contact Us    Sitemap    

    加西网为北美中文网传媒集团旗下网站

    页面生成: 0.0320 秒 and 3 DB Queries in 0.0009 秒