最近具身智能很热,worldmodel也很热。热到什么程度呢?热到大家一说机器人要有worldmodel,第一反应往往就是:那我们是不是要训练一个更大的视频预测模型,让机器人在pixelspace里面“做梦”?
这个直觉确实有道理。毕竟互联网最不缺的就是视频。人类开门、倒水、切菜、叠衣服、拧瓶盖、用工具,什么都有。如果语言模型可以从全网文本中学到知识,那机器人是不是也可以从全网视频中学到物理世界?
这个愿景很美。但我们一直有一个挥之不去的疑问:机器人真的应该在像素里学习物理吗?
像素当然是最直接的数据形式。视频打开就是pixels,数据量巨大,天然scalable。但问题也在这里:pixels太低层了。一个机器人真正关心的,不是桌布上那朵花的纹理,也不是背景里某个椅子的颜色,更不是摄像机轻微抖动后每个像素应该怎么变。机器人关心的是:物体怎么动?哪里发生了接触?工具和目标之间的关系怎么变化?手推了哪里?杯子为什么倒了?门把手到底是旋转还是平移?

如果我们训练一个pixel-spaceworldmodel,让它预测未来画面,它可能花了很多力气学会了光照、纹理、背景和相机运动。很厉害,很贵,也很可能不是机器人最需要的东西。
这就带来一个很朴素、甚至有点“不讲武德”的问题:如果要训练一个真正适合robotics的pixelworldmodel,本身就需要大量roboticsdata;那如果已经有这么多roboticsdata,为什么不直接训练policy?worldmodel不是应该帮助我们解决action-labeledroboticsdata不scalable的问题吗?怎么绕了一圈,又回到了“请给我更多机器人数据”?
这就是一个鸡生蛋、蛋生鸡问题。机器人学界已经有很多鸡和蛋了,真的不缺这一枚。

另一条路线是latentworldmodel。这个方向看起来更优雅:不要预测每个像素,把世界压到一个compactlatentspace里,再预测latentdynamics。听起来很合理。我也承认,latentrepresentation是机器学习里非常强大的工具。
但我们对纯黑盒latentspace一直保持一点职业性怀疑。这个怀疑不是凭空来的。做spectralmethods、representationlearning、latentvariablemodels很多年,一个反复被教育的经验是:latentspace在paper里常常很漂亮,在benchmark上也常常很能打,但一旦你想解释它、干预它、纠正它,它就开始露出脾气。

有时候latentspace像一个很聪明但不愿意解释作业过程的小孩。答案可能对,但你不知道它为什么对;错了你也不知道从哪里改。更糟糕的是,它还可能collapse。机器人系统偏偏又不是写诗,它需要和真实世界发生接触,需要可靠、可控、可纠错。一个“我也不知道里面发生了什么,但loss降了”的worldmodel,对机器人来说有点危险。
所以作者们在μ₀里问了一个问题:有没有一种表示,既不像pixels那么低层、昂贵、冗余,又不像黑盒latent那么不可解释、难干预?
μ₀的答案是:3Dinteractiontraces。

μ₀不是一个pixelworldmodel,也不是一个纯latentworldmodel。它是一个symbolic/structuredworldmodel,预测的是物理交互中的三维运动轨迹。
更具体一点,μ₀预测的是少量语义交互点的运动:物体部件、工具、手、接触区域。这些点怎么动,往哪里动,如何随时间变化。我们把它们叫做3Dinteractiontraces。

这个表示很“小”。它不需要生成整张未来图像,不需要把背景、纹理、光照都复原出来。但它又不是一个完全黑盒的latent。每一条trace都对应真实世界中某个有意义的东西:一个物体边缘,一个工具端点,一个手指附近的接触区域,一个正在被推动的部件。
这就是μ₀的可爱之处:compactenoughtoscale,structuredenoughtointerpret。
如果说得更“宏大”一点,μ₀作者们认为机器人需要自己的符号空间。
LLM为什么能scale?一个很重要的原因是人类已经替它发明好了words。文字是一个统一空间。我们用文字记录、压缩、交换、复用知识。几千年文明活动,最后都可以被搬进一个sharedtokenspace:书、论文、网页、代码、聊天记录。LLM站在这个人类文明的“便宜大碗数据格式”上训练,当然很幸福。

机器人就没这么幸运。机器人世界太heterogeneous了。不同embodiment,不同actionspace,不同传感器,不同工具,不同任务,不同环境。一个Franka的actionlabel,并不会自动变成灵巧手的actionlabel;人类手部视频,也不会天然变成机器人可执行的jointcommand。
所以对robotics来说,真正的问题可能不是“我们要不要worldmodel”,而是:什么是robotics的words?什么样的symbolspace可以让机器人跨embodiment、跨场景、跨任务复用物理知识?
μ₀给出的第一个探索性答案是:motiontraces可能是一种物理语言。
不是语言意义上的language,而是物理交互意义上的language。它描述的不是“这个物体叫什么”,而是“它在交互中如何运动”。它把人类视频和机器人视频中共同的部分抽出来:不是谁的手、谁的关节、谁的motorcommand,而是物体、工具、接触点的三维运动结构。
为了学这个表示,μ₀的作者做了个数据引擎TraceExtract。简单说,它把普通视频转成tracesupervision。先找“什么在动”,再估“它在哪里动”,最后分解“它怎么动”。这个过程让我们可以从video-onlydata中学习physicalinteraction,而不是一上来就依赖昂贵的机器人actionlabels。

这对academiclab很重要:没有工业级compute,没有内部私有大数据资产,没有一屋子的机器人昼夜不停采数据。有的只是开源数据、学校computecluster、学生的毅力,以及导师偶尔半夜发Slack的热情。听起来不豪华,但也正因为如此,academiclab必须认真思考什么样的representation才是真的高效。
这也是μ₀有意思的地方。它不是靠“我比你更大”来讲故事。μ₀的预训练数据大约是200Kepisodes、13Mframes、15.7TB。听起来不少,对一个academiccluster来说也确实不少——有些job跑起来的时候,我都觉得cluster风扇声里带着一点控诉。但和工业级VLA模型的数据规模相比,这远不是一个“大力出奇迹”的设置。
μ₀的策略是:让已有vision-languagebackbone保留语义知识,让单独的traceexpert学物理运动。也就是说,语义和dynamics不要混在一起煮成一锅latent粥。语义交给pretrainedfoundationmodel,运动交给trace-spaceworldmodel。

更关键的是,μ₀的worldmodel预训练阶段不需要actionlabels。之后把μ₀freeze,只在上面训练一个很轻量的actionexpert,把tracefeatures转换成机器人动作。这个设计其实很朴素:如果trace-spaceworldmodel真的学到了可复用的物理运动先验,那么下游机器人控制应该能用得上它,而不只是看起来像个漂亮的预测任务。

实验结果让人很兴奋。在traceforecasting上,μ₀在多个指标和预测horizon上表现很好,也比一些强API模型更擅长这个具体的物理预测问题。它的推理速度也很快,单次预测大约0.29秒。


更重要的是,在仿真和真实机器人实验中,冻结μ₀后接一个轻量actionexpert,仍然能达到和强VLApolicy相当的机器人表现;在真实机器人评测里,μ₀+actionexpert的平均成功率超过了π₀.₅。



这里最重要的不是“做出了一个最终robotpolicy”。没有。μ₀还不是终点,也远远不是一个完整机器人系统的全部答案。更重要的是:trace-spaceprediction学到的东西,确实能被机器人控制复用。
这件事如果成立,就说明worldmodel的价值不一定在于生成更逼真的视频。机器人不一定需要在像素里做更高清的梦。它可能更需要一种可迁移、可解释、可干预的物理表示。
当然,3Dinteractiontraces也不是唯一可能的物理语言。它只是第一步。未来还能继续加入更多physicalpriors:contactgraphs、force/torquetraces、tactilefields、object-centricaffordancegraphs、constraints、energylandscapes……这些东西听起来不像pixels那么“万能”,但可能更接近机器人真正需要理解的世界。
具身智能的scaling不会只是“更多数据、更大模型、更长训练”。当然,我们也想scaledata,而且非常想。只是作为一个没有无限compute的academiclab,甚至本着对资源使用负责的态度的frontierlab,可能更需要问:在scaling之前,表示空间选对了吗?如果symbolspace选错了,scale得越大,可能只是越快地把资源烧到错误方向上。
这也是μ₀想表达的一个小小立场:
机器人学习不该只是在pixels里复刻视频世界,也不该把物理交互全部塞进不可解释的latent。我们需要寻找robotics自己的symbolspace。

LLM有words。
Robots也许需要traces。
μ₀是我们朝这个方向迈出的一步。不是最后一步,但至少这一步,让我觉得我们离robotics的GPT-3.5moment,好像又近了一点点。
项目页:https://mu0-wm.github.io/
作者简介
FurongHuang,马里兰大学计算机科学系副教授,研究方向包括机器学习、具身智能、机器人学习、表示学习与高效大模型。她长期关注如何在有限数据与计算资源下构建可扩展、可解释、可迁移的智能系统。近期工作μ₀探索以3Dinteractiontraces作为机器人世界模型的符号空间。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 203304862@qq.com
本文链接:https://www.jinnalai.com/jiaodian/838650.html
