中国构建统一人工智能模型，应对复杂的多任务机器人挑战

发布时间：2026-04-30 17:44 浏览量：40

一个机器人在执行任务时夹取物品失败，它没有停下来等待人工干预，而是自己识别出错误，调整姿态，重新尝试，直到成功。

这听起来理所当然，却是当前绝大多数机器人系统做不到的事。盛舒科技于2026年4月正式发布的Motubrain，正是为了解决这个问题而生。

传统机器人系统的架构，本质上是一堆模块的集合：负责感知的传感器模块、负责规划路径的决策模块、负责执行动作的控制模块，各司其职，依次传递指令。这套架构在结构化环境中运行尚可，但一旦面对现实世界的混乱、随机和不确定性，就会漏洞百出。

每一个模块都需要单独训练，每一种任务都需要专门标注数据，环境稍一变化，整套系统就可能宕机。这就是为什么商用服务机器人至今仍常常在简单障碍面前手足无措。

盛舒科技给出的答案是彻底打破这套逻辑。Motubrain采用三流混合Transformer架构，将视频、语言和动作三种模态的输入整合进一个统一框架，让机器人在同一个系统内完成感知、理解、预测和动作生成的全流程，中间没有切换，没有等待，没有信息损耗。

盛舒科技创始人朱军的表述直截了当："一个真正的世界模型必须能够构建现实世界的统一表示，并预测它如何演变。"这不是营销语言，而是对当前具身AI领域核心技术路线分歧的直接回应。

在基准测试层面，Motubrain的成绩足够拿出来说事。它在WorldArena上取得63.77分，在RoboTwin 2.0的50项任务中平均得分96.0，并且是目前唯一一个在随机环境下得分超过95.0的模型。更关键的是，它能够支持包含多达10个原子动作的多步骤复杂任务，而大多数同类系统只能处理2到3个动作的序列。

这个差距，在工业流水线或家庭服务场景中意味着完全不同的实用价值。

盛舒科技的出身，本来是生成式视频AI。它旗下的Vidu视频生成平台是国内最早一批达到商业可用水准的产品之一，在2024年至2025年间积累了大量用户和视频数据。

这条路径，给了Motubrain一个别的具身AI公司很难复制的基础：海量的真实世界视频训练数据。

人类对现实世界的理解，很大程度上来自视觉经验的积累，机器人的学习逻辑与此并无本质区别。Motubrain没有依赖传统的人工标注数据集，而是直接从未标注视频、仿真数据和多机器人任务录像中提取运动模式，通过潜在动作框架转化为可执行指令。

这套训练方法大幅降低了数据获取成本，也让模型具备了更好的泛化能力。在内部评估中，随着任务复杂度和训练数据量的增加，Motubrain的任务成功率始终高于对比系统，呈现出清晰的规模效应。

目前，Motubrain已与Astribot、SimpleAI和Anyverse Dynamics等机器人公司展开合作，应用场景覆盖工业生产、商业服务和家庭助理三大领域。阿里云领投的2.93亿美元B轮融资，为其规模化部署提供了充足的弹药。

放在更宏观的背景下，盛舒科技的入局恰好踩在了节点上。IDC数据显示，2026年中国具身智能市场正加速进入规模化发展阶段，人形机器人价格持续下探，量产规模可期，行业整体从"技术验证"切换到"商业落地"的档位。

这个赛道上已经聚集了足够多的玩家，竞争并不轻松。但Motubrain选择的方向，是试图在底层重新定义机器人大脑的架构逻辑，而不是在现有框架内做局部优化。这是一条更难走的路，也是一条一旦走通、护城河更深的路。

标签：机器人模型人工智能多任务 motubrain

上一篇：中国港能(00931.HK)委任Muath Ibrahim Al-Eidi为国际顾问
下一篇：🧘瑜伽后时光☀️分享2件爱穿百搭好物

中国构建统一人工智能模型，应对复杂的多任务机器人挑战

相似文章

资讯分类

热门资讯

热门标签

热门产品