中国构建统一人工智能模型,应对复杂的多任务机器人挑战

发布时间:2026-04-30 17:44  浏览量:1

一个机器人在执行任务时夹取物品失败,它没有停下来等待人工干预,而是自己识别出错误,调整姿态,重新尝试,直到成功。

这听起来理所当然,却是当前绝大多数机器人系统做不到的事。盛舒科技于2026年4月正式发布的Motubrain,正是为了解决这个问题而生。

传统机器人系统的架构,本质上是一堆模块的集合:负责感知的传感器模块、负责规划路径的决策模块、负责执行动作的控制模块,各司其职,依次传递指令。这套架构在结构化环境中运行尚可,但一旦面对现实世界的混乱、随机和不确定性,就会漏洞百出。

每一个模块都需要单独训练,每一种任务都需要专门标注数据,环境稍一变化,整套系统就可能宕机。这就是为什么商用服务机器人至今仍常常在简单障碍面前手足无措。

盛舒科技给出的答案是彻底打破这套逻辑。Motubrain采用三流混合Transformer架构,将视频、语言和动作三种模态的输入整合进一个统一框架,让机器人在同一个系统内完成感知、理解、预测和动作生成的全流程,中间没有切换,没有等待,没有信息损耗。

盛舒科技创始人朱军的表述直截了当:"一个真正的世界模型必须能够构建现实世界的统一表示,并预测它如何演变。"这不是营销语言,而是对当前具身AI领域核心技术路线分歧的直接回应。

在基准测试层面,Motubrain的成绩足够拿出来说事。它在WorldArena上取得63.77分,在RoboTwin 2.0的50项任务中平均得分96.0,并且是目前唯一一个在随机环境下得分超过95.0的模型。更关键的是,它能够支持包含多达10个原子动作的多步骤复杂任务,而大多数同类系统只能处理2到3个动作的序列。

这个差距,在工业流水线或家庭服务场景中意味着完全不同的实用价值。

盛舒科技的出身,本来是生成式视频AI。它旗下的Vidu视频生成平台是国内最早一批达到商业可用水准的产品之一,在2024年至2025年间积累了大量用户和视频数据。

这条路径,给了Motubrain一个别的具身AI公司很难复制的基础:海量的真实世界视频训练数据。

人类对现实世界的理解,很大程度上来自视觉经验的积累,机器人的学习逻辑与此并无本质区别。Motubrain没有依赖传统的人工标注数据集,而是直接从未标注视频、仿真数据和多机器人任务录像中提取运动模式,通过潜在动作框架转化为可执行指令。

这套训练方法大幅降低了数据获取成本,也让模型具备了更好的泛化能力。在内部评估中,随着任务复杂度和训练数据量的增加,Motubrain的任务成功率始终高于对比系统,呈现出清晰的规模效应。

目前,Motubrain已与Astribot、SimpleAI和Anyverse Dynamics等机器人公司展开合作,应用场景覆盖工业生产、商业服务和家庭助理三大领域。阿里云领投的2.93亿美元B轮融资,为其规模化部署提供了充足的弹药。

放在更宏观的背景下,盛舒科技的入局恰好踩在了节点上。IDC数据显示,2026年中国具身智能市场正加速进入规模化发展阶段,人形机器人价格持续下探,量产规模可期,行业整体从"技术验证"切换到"商业落地"的档位。

这个赛道上已经聚集了足够多的玩家,竞争并不轻松。但Motubrain选择的方向,是试图在底层重新定义机器人大脑的架构逻辑,而不是在现有框架内做局部优化。这是一条更难走的路,也是一条一旦走通、护城河更深的路。