一脑就能适配多任务、多本体！夺得世界第一的Motubrain，终于揭秘了

发布时间：2026-04-29 21:58 浏览量：82

作者 |

许丽思

编辑 |

漠影

机器人进家门干活的节奏，正在加快。

前阵子，一款神秘的大模型Motubrain悄悄登上两个国际benchmark的榜首。最近，Motubrain被生数科技正式认领。

但比双榜第一更有冲击力的，是Motubrain随后展示的工业级实机表现。在视频中，Motubrain不仅能够适配多款不同形态的人形机器人，还驱动机器人完成插花、整理沙发、调酒、煮火锅等复杂任务。

这些画面最值得关注的，就是

一个大脑正在驱动不同机器人，在充满变数的真实世界中，连续完成一整件事。

这恰好踩中了具身智能行业当下最关键的拐点。

过去一段时间，机器人最容易出圈的是运动控制能力，跳舞、跑酷、翻跟头，各种高难度动作频频刷屏，让大众直观地感受到：机器人真的离我们越来越近了。

但看完热闹之后，大家更关心的是，这些机器人什么时候才能真正走进工厂、仓库、商超和家庭，去实打实地干活呢？

这种反差背后，是

具身智能正在经历的一场范式演进。

之前，机器人最容易被看见的能力是运动控制能力，大家很关注它能不能站稳、能不能跑起来、能不能完成复杂动作。

但要让机器人成为真正的生产力，光有会动的身体还不够。进入真实世界后，机器人要面对完全没法提前预设的突发情况，真正决定能不能落地的，是那颗大脑，

依靠大脑能够赋予机器人在变化的真实世界里连续做对动作的能力。

Motubrain试图把预测世界和驱动行动都放进同一个模型闭环里，能够一脑覆盖多任务、适配多本体，让机器人从机械指令执行者，进化为真正能够自主连续完成任务的智能体。

让机器人不再“先想后动”，

Motubrain打通了预测与执行

让机器人执行任务，过去长期被拆成两件事：

先理解世界，再执行动作。

问题是，真实世界不会等机器人慢慢想完。

一个很简单的例子：当机器人看到一个杯子快从桌沿掉下去的时候，它不能只判断杯子可能会掉，还要立刻决定伸哪只手、从什么角度接、接住后如何保持平衡。

过去，行业围绕world model和action model形成了几条代表性技术路线：

有的强调

统一世界模型

，通过视觉、语言、视频与动作的联合建模，融合视频模型、VLA、世界模型等能力，实现对真实环境的感知、规划、预测、执行和跨任务泛化；

有的偏向

“先想象、再行动”，

先用视频模型预测未来状态，再反向指导机器人动作决策。

这两种路线各有价值，也暴露出一个共同难点：

感知和行动之间仍然存在断点。

有的模型更擅长看懂世界，却很难直接驱动机器人行动；有的模型能完成固定动作，对环境变化的理解又不够深。

除此之外，还有一些路线，走

“同步推演未来状态+生成动作”的路线

，也就是边推演边行动的World Action Model。

而Motubrain选择走的是这样一条World Action Model路线：

兼具world model对环境和未来状态的推演能力，以及action model在真实任务中的执行能力。

正是因为这种底层建模的统一，带来了

极高的数据使用效率，

使得Motubrain不靠死记硬背特定轨迹，就能灵活处理真实世界中的各种随机情况，这也是它能登顶榜单的技术根源。

Motubrain的特殊之处在于，它跳出了单任务模型的逻辑，

聚焦真实世界中的统一行动能力构建。

它强调的不是某个动作做得有多漂亮，而是机器人能不能围绕一个目标，在连续变化的环境里一步步把任务完成。

以家庭备餐为例，任务涉及的不是“拿盘子”这一个动作。机器人要拿盘子、摆放、取食材、分拣、上桌、收拾，还要处理餐具临时换位、物体被遮挡、人员经过等情况。

Motubrain要做的，机器人在看到眼前环境的同时，就把下一步可能产生的变化、动作结果都想明白了，无缝衔接执行。就算面对盘子突然被挪开、桌面突然出现障碍物等特殊情况，也可以随机应变，不断随着环境变化调整自身行动。

不靠堆叠技能包，Motubrain

让机器人学会跨任务、跨本体持续干活

机器人落地，怕的不是一个任务失败，而是换一个任务、本体、场景，能力就失效。

不少模型专为特定任务设计，它们可以在一个固定场景里完成特定动作，但新增任务时，往往需要重新训练，或者再叠加一个新模型。虽然这种方式能比较快地跑通Demo，但长期看，系统越来越复杂，维护成本也水涨船高。

Motubrain实现了

“一脑多能”，应对多种任务，

在多任务场景中保持稳定表现，不依赖单一任务训练。

以

整理沙发

为例，这看似只是一项任务，实际包含了多种能力组合。机器人要先判断沙发上的物品类别，把衣物放进洗衣篮，再识别靠枕的位置和朝向，将其依次放回原位。

调酒

也是类似逻辑：机器人需要依次识别饮料、牛奶、杯子和装饰物，按照顺序完成倾倒、点缀、摆放等动作。

这类案例的价值，不仅仅是展示机器人会做几件事，更是说明Motubrain已经

具备跨任务复用的工业级泛化能力，

验证了其落地潜力。

随着任务数量持续增加，任务之间的共享世界知识越多，模型的平均任务成功率也同步提升，展现出更强的多任务统一能力与泛化能力。

跨任务之外，跨本体也是一大难点。机器人本体不同，意味着自由度、关节结构、臂展、末端执行器等都可能不同。一个模型如果只能记住某个动作轨迹，就容易和个别硬件深度绑定，就很难迁移到另一台机器人上。

而MotuBrain做到了

“一脑多型”，适配多种机器人本体。

MotuBrain并不是为某一种机器人量身定制，而是面向多机器人本体设计的统一智能底座。它具备多本体适配能力，有望打破“一个机器人一个模型”的传统模式。

模型能很好的利用异构数据，随着生态内机器人种类、场景和数据不断丰富，它的能力还能够持续提升，形成更强的通用性，并进一步反哺生态内每一类机器人的表现。

长程任务同样是机器人落地的一道坎。机器人处理复杂长程任务时，如果依赖多模块拼接执行，很容易出现步骤断层、误差累积、流程卡顿等问题。

Motubrain的

“一脑贯通”，长程任务一步完成。

Motubrain能够直接学习完整任务链路，无需上层规划、任务拆解、快慢双系统或多模型拼接，在复杂长程任务中实现更高的成功率。

一个World Action Model即可完成

10个原子动作级别

的复杂长程任务，而不止停留在2-3个原子动作的 Demo展示。

插花

任务正好体现了这种能力。它看起来只是把花插进花瓶，实际包含了抓取、定位、插入、浇水、转移等多个步骤。Motubrain可以让机器人依次将鲜花精准插入花瓶，再拿起喷壶给花浇水，最后把花瓶移动到桌子旁边，一气呵成完成整条任务链。

Motubrain还实现了

“一脑预见”

，不只是执行指令，更能够

理解世界并预测环境变化，并据此推演更合理的动作与运动路径。

通过将理解世界、预测世界和执行动作统一建模，模型能够在动态场景中持续判断、调整与行动，实现“预测世界，也驱动行动”。

在

煮火锅

的时候，机器人在感知到勺子是空的同时，就已经预测到需要重新执行捞取动作。

Motubrain的这些特点，最终都指向同一个技术目标：减少机器人能力对单一任务、单一硬件和单一场景的依赖，让能力可以迁移、复用和扩展。

这样的话，机器人才有机会从机械指令执行者，转变为自主完成任务的智能体，适应工业、商用、家庭等场景的落地需求。

同时夺下两个世界第一，

Motubrain成功统一预测世界、驱动行动

前阵子，Motubrain在WorldArena和RoboTwin2.0这两个国际benchmark上，悄悄拿下了两个世界第一。

WorldArena更偏世界建模能力，考察模型能不能真正理解和预测现实世界；RoboTwin2.0则更偏任务执行能力，考察模型能否在多任务、多环境下稳定执行动作，动作能否泛化到没见过的场景。

Motubrain能够同时在两类benchmark上问鼎，说明它至少在benchmark层面验证了一件事：

把预测世界和驱动行动统一在同一个模型里，这条路是走得通的。

在WorldArena中，Motubrain总体EWM Score达到63.77，排名第一；从结果来看，该模型已超过高德ABot、极佳GigaWorld-1等同类模型，同时在Motion Quality、Flow Score、Motion Smoothness等多个关键运动维度中均排名第一。

现实场景没有人能提前把所有情况教完、预设好轨迹，只有像Motubrain这样，让机器人理解更底层的物理规律和空间关系，并能够在持续的实践中不断进化，才有可能真正落地。

而在RoboTwin2.0中，Motubrain在Clean和Randomized 两个场景下分别达到95.8和96.1，同样排名第一，是榜单上唯一一个在随机环境下平均分超过95的模型，在大多数具体任务中也都取得了100或接近 100 的成绩。

相较于实验室的固定环境，随机环境下的95分有着极其重要的产业价值，这意味着它能像熟练工一样应对干扰，这种断层领先本质上解决了跨场景泛化的落地死穴。

可以看出，Motubrain体现出的并不是单项任务的“偶然强”，而是一种

更接近通用机器人大脑的能力特征，

在复杂环境中依旧可以稳定、连续地执行，并且能够泛化至跨任务、跨场景。

从这个意义上说，

即使未来榜单名次发生变化，Motubrain所代表的“预测世界+驱动行动”统一范式，依然是具身智能走向真实落地的一条关键路径。

结语：从数字内容生成到物理世界行动，

生数科技拉开具身智能规模化落地序幕

Motubrain并不是一个孤立发布的模型。放在生数科技的整体战略里看，该公司正在把通用世界模型从数字内容生成，进一步推进到物理世界行动，而

Motubrain就是其物理空间智能战略的核心落地载体。

生数科技以

全球首创U-ViT架构的基座世界模型

为底层核心，依托世界生成模型（WGM）与世界行动模型（WAM）双支撑，打通预测世界、生成世界、行动于世界完整技术闭环，使通用世界模型真正成为连接数字世界与物理世界的桥梁。

生数科技还与无界动力、深朴智能、星尘智能等具身智能企业达成合作，让Motubrain不是停留在技术验证层面，而是真正与机器人本体进行适配，完成场景落地，推动形成从底层世界模型到机器人场景落地的完整布局。

随着具身智能从硬件竞赛转向通用机器人大脑的比拼，生数科技的布局已经为行业验证了

“预测+行动” 统一模型是真实可行的。

榜单排名会变化，分数也终将被刷新，但Motubrain确立的统一建模范式将成为未来智能基础设施的基础。AI的下一幕，Physical AI大幕已然拉开。

标签：适配本体多任务 motubrain 适配多任务

一脑就能适配多任务、多本体！夺得世界第一的Motubrain，终于揭秘了

相似文章

资讯分类

热门资讯

热门标签

热门产品