一脑就能适配多任务、多本体!夺得世界第一的Motubrain,终于揭秘了

发布时间:2026-04-29 21:58  浏览量:1

作者 |

许丽思

编辑 |

漠影

机器人进家门干活的节奏,正在加快。

前阵子,一款神秘的大模型Motubrain悄悄登上两个国际benchmark的榜首。最近,Motubrain被生数科技正式认领。

但比双榜第一更有冲击力的,是Motubrain随后展示的工业级实机表现。在视频中,Motubrain不仅能够适配多款不同形态的人形机器人,还驱动机器人完成插花、整理沙发、调酒、煮火锅等复杂任务。

这些画面最值得关注的,就是

一个大脑正在驱动不同机器人,在充满变数的真实世界中,连续完成一整件事。

这恰好踩中了具身智能行业当下最关键的拐点。

过去一段时间,机器人最容易出圈的是运动控制能力,跳舞、跑酷、翻跟头,各种高难度动作频频刷屏,让大众直观地感受到:机器人真的离我们越来越近了。

但看完热闹之后,大家更关心的是,这些机器人什么时候才能真正走进工厂、仓库、商超和家庭,去实打实地干活呢?

这种反差背后,是

具身智能正在经历的一场范式演进。

之前,机器人最容易被看见的能力是运动控制能力,大家很关注它能不能站稳、能不能跑起来、能不能完成复杂动作。

但要让机器人成为真正的生产力,光有会动的身体还不够。进入真实世界后,机器人要面对完全没法提前预设的突发情况,真正决定能不能落地的,是那颗大脑,

依靠大脑能够赋予机器人在变化的真实世界里连续做对动作的能力。

Motubrain试图把预测世界和驱动行动都放进同一个模型闭环里,能够一脑覆盖多任务、适配多本体,让机器人从机械指令执行者,进化为真正能够自主连续完成任务的智能体。

01

.

让机器人不再“先想后动”,

Motubrain打通了预测与执行

让机器人执行任务,过去长期被拆成两件事:

先理解世界,再执行动作。

问题是,真实世界不会等机器人慢慢想完。

一个很简单的例子:当机器人看到一个杯子快从桌沿掉下去的时候,它不能只判断杯子可能会掉,还要立刻决定伸哪只手、从什么角度接、接住后如何保持平衡。

过去,行业围绕world model和action model形成了几条代表性技术路线:

有的强调

统一世界模型

,通过视觉、语言、视频与动作的联合建模,融合视频模型、VLA、世界模型等能力,实现对真实环境的感知、规划、预测、执行和跨任务泛化;

有的偏向

“先想象、再行动”,

先用视频模型预测未来状态,再反向指导机器人动作决策。

这两种路线各有价值,也暴露出一个共同难点:

感知和行动之间仍然存在断点。

有的模型更擅长看懂世界,却很难直接驱动机器人行动;有的模型能完成固定动作,对环境变化的理解又不够深。

除此之外,还有一些路线,走

“同步推演未来状态+生成动作”的路线

,也就是边推演边行动的World Action Model。

而Motubrain选择走的是这样一条World Action Model路线:

兼具world model对环境和未来状态的推演能力,以及action model在真实任务中的执行能力。

正是因为这种底层建模的统一,带来了

极高的数据使用效率,

使得Motubrain不靠死记硬背特定轨迹,就能灵活处理真实世界中的各种随机情况,这也是它能登顶榜单的技术根源。

Motubrain的特殊之处在于,它跳出了单任务模型的逻辑,

聚焦真实世界中的统一行动能力构建。

它强调的不是某个动作做得有多漂亮,而是机器人能不能围绕一个目标,在连续变化的环境里一步步把任务完成。

以家庭备餐为例,任务涉及的不是“拿盘子”这一个动作。机器人要拿盘子、摆放、取食材、分拣、上桌、收拾,还要处理餐具临时换位、物体被遮挡、人员经过等情况。

Motubrain要做的,机器人在看到眼前环境的同时,就把下一步可能产生的变化、动作结果都想明白了,无缝衔接执行。就算面对盘子突然被挪开、桌面突然出现障碍物等特殊情况,也可以随机应变,不断随着环境变化调整自身行动。

02

.

不靠堆叠技能包,Motubrain

让机器人学会跨任务、跨本体持续干活

机器人落地,怕的不是一个任务失败,而是换一个任务、本体、场景,能力就失效。

不少模型专为特定任务设计,它们可以在一个固定场景里完成特定动作,但新增任务时,往往需要重新训练,或者再叠加一个新模型。虽然这种方式能比较快地跑通Demo,但长期看,系统越来越复杂,维护成本也水涨船高。

Motubrain实现了

“一脑多能”,应对多种任务,

在多任务场景中保持稳定表现,不依赖单一任务训练。

整理沙发

为例,这看似只是一项任务,实际包含了多种能力组合。机器人要先判断沙发上的物品类别,把衣物放进洗衣篮,再识别靠枕的位置和朝向,将其依次放回原位。

调酒

也是类似逻辑:机器人需要依次识别饮料、牛奶、杯子和装饰物,按照顺序完成倾倒、点缀、摆放等动作。

这类案例的价值,不仅仅是展示机器人会做几件事,更是说明Motubrain已经

具备跨任务复用的工业级泛化能力,

验证了其落地潜力。

随着任务数量持续增加,任务之间的共享世界知识越多,模型的平均任务成功率也同步提升,展现出更强的多任务统一能力与泛化能力。

跨任务之外,跨本体也是一大难点。机器人本体不同,意味着自由度、关节结构、臂展、末端执行器等都可能不同。一个模型如果只能记住某个动作轨迹,就容易和个别硬件深度绑定,就很难迁移到另一台机器人上。

而MotuBrain做到了

“一脑多型”,适配多种机器人本体。

MotuBrain并不是为某一种机器人量身定制,而是面向多机器人本体设计的统一智能底座。它具备多本体适配能力,有望打破“一个机器人一个模型”的传统模式。

模型能很好的利用异构数据,随着生态内机器人种类、场景和数据不断丰富,它的能力还能够持续提升,形成更强的通用性,并进一步反哺生态内每一类机器人的表现。

长程任务同样是机器人落地的一道坎。机器人处理复杂长程任务时,如果依赖多模块拼接执行,很容易出现步骤断层、误差累积、流程卡顿等问题。

Motubrain的

“一脑贯通”,长程任务一步完成。

Motubrain能够直接学习完整任务链路,无需上层规划、任务拆解、快慢双系统或多模型拼接,在复杂长程任务中实现更高的成功率。

一个World Action Model即可完成

10个原子动作级别

的复杂长程任务,而不止停留在2-3个原子动作的 Demo展示。

插花

任务正好体现了这种能力。它看起来只是把花插进花瓶,实际包含了抓取、定位、插入、浇水、转移等多个步骤。Motubrain可以让机器人依次将鲜花精准插入花瓶,再拿起喷壶给花浇水,最后把花瓶移动到桌子旁边,一气呵成完成整条任务链。

Motubrain还实现了

“一脑预见”

,不只是执行指令,更能够

理解世界并预测环境变化,并据此推演更合理的动作与运动路径。

通过将理解世界、预测世界和执行动作统一建模,模型能够在动态场景中持续判断、调整与行动,实现“预测世界,也驱动行动”。

煮火锅

的时候,机器人在感知到勺子是空的同时,就已经预测到需要重新执行捞取动作。

Motubrain的这些特点,最终都指向同一个技术目标:减少机器人能力对单一任务、单一硬件和单一场景的依赖,让能力可以迁移、复用和扩展。

这样的话,机器人才有机会从机械指令执行者,转变为自主完成任务的智能体,适应工业、商用、家庭等场景的落地需求。

03

.

同时夺下两个世界第一,

Motubrain成功统一预测世界、驱动行动

前阵子,Motubrain在WorldArena和RoboTwin2.0这两个国际benchmark上,悄悄拿下了两个世界第一。

WorldArena更偏世界建模能力,考察模型能不能真正理解和预测现实世界;RoboTwin2.0则更偏任务执行能力,考察模型能否在多任务、多环境下稳定执行动作,动作能否泛化到没见过的场景。

Motubrain能够同时在两类benchmark上问鼎,说明它至少在benchmark层面验证了一件事:

把预测世界和驱动行动统一在同一个模型里,这条路是走得通的。

在WorldArena中,Motubrain总体EWM Score达到63.77,排名第一;从结果来看,该模型已超过高德ABot、极佳GigaWorld-1等同类模型,同时在Motion Quality、Flow Score、Motion Smoothness等多个关键运动维度中均排名第一。

现实场景没有人能提前把所有情况教完、预设好轨迹,只有像Motubrain这样,让机器人理解更底层的物理规律和空间关系,并能够在持续的实践中不断进化,才有可能真正落地。

而在RoboTwin2.0中,Motubrain在Clean和Randomized 两个场景下分别达到95.8和96.1,同样排名第一,是榜单上唯一一个在随机环境下平均分超过95的模型,在大多数具体任务中也都取得了100或接近 100 的成绩。

相较于实验室的固定环境,随机环境下的95分有着极其重要的产业价值,这意味着它能像熟练工一样应对干扰,这种断层领先本质上解决了跨场景泛化的落地死穴。

可以看出,Motubrain体现出的并不是单项任务的“偶然强”,而是一种

更接近通用机器人大脑的能力特征,

在复杂环境中依旧可以稳定、连续地执行,并且能够泛化至跨任务、跨场景。

从这个意义上说,

即使未来榜单名次发生变化,Motubrain所代表的“预测世界+驱动行动”统一范式,依然是具身智能走向真实落地的一条关键路径。

04

.

结语:从数字内容生成到物理世界行动,

生数科技拉开具身智能规模化落地序幕

Motubrain并不是一个孤立发布的模型。放在生数科技的整体战略里看,该公司正在把通用世界模型从数字内容生成,进一步推进到物理世界行动,而

Motubrain就是其物理空间智能战略的核心落地载体。

生数科技以

全球首创U-ViT架构的基座世界模型

为底层核心,依托世界生成模型(WGM)与世界行动模型(WAM)双支撑,打通预测世界、生成世界、行动于世界完整技术闭环,使通用世界模型真正成为连接数字世界与物理世界的桥梁。

生数科技还与无界动力、深朴智能、星尘智能等具身智能企业达成合作,让Motubrain不是停留在技术验证层面,而是真正与机器人本体进行适配,完成场景落地,推动形成从底层世界模型到机器人场景落地的完整布局。

随着具身智能从硬件竞赛转向通用机器人大脑的比拼,生数科技的布局已经为行业验证了

“预测+行动” 统一模型是真实可行的。

榜单排名会变化,分数也终将被刷新,但Motubrain确立的统一建模范式将成为未来智能基础设施的基础。AI的下一幕,Physical AI大幕已然拉开。