中兴具身模型颠覆认知!让AI从虚拟杀到现实,碾压同类两倍成功率

发布时间:2025-12-07 15:55  浏览量:5

你能想象吗?

当老墨对机器人说“把脏衣服放进洗衣机再烘干”,它不仅听得懂,还能一步步规划路线、打开衣柜、分类衣物,甚至在洗衣液不足时主动提示——这不是科幻电影场景,而是中兴最新具身模型EmbodiedBrain实现的真实效果

最近这个模型在行业测试里创下46.46%的任务成功率,直接是同类产品的两倍,让AI从只会“纸上谈兵”的虚拟工具,变成了能落地干活的“实干家”。

EmbodiedBrain模型的架构革新

要知道,以前不少AI模型看着厉害,一到真实场景就“掉链子”。

要么看不懂复杂环境,把酱油当醋拿;要么反应慢半拍,指令下达后得等好几秒才行动;更关键的是,很多测试数据都是实验室里的“理想情况”,到了家里、工厂这种真实场景就水土不服。

中兴星云大脑团队就是冲着这些痛点去的,花了大功夫搞出了这套EmbodiedBrain模型,分7B和32B两种参数规格,从架构到训练全是新设计。

这个模型最绝的地方,是打通了“看得到、想得通、做得对”的全流程。

它有三个核心部件协同工作:原生分辨率视觉编码器能像人眼一样捕捉细节,连衣服上的褶皱、物品的摆放角度都能精准识别;视觉-语言融合器就像“翻译官”,把看到的图像信息和听到的语言指令统一成模型能理解的“通用语言”;再加上基于Qwen2.5的解码器当“大脑”,能处理长视频里的动态变化,比如看着锅里的水烧开就知道该关火。

光有好架构还不够,训练数据和方法更是关键。

训练突破:从数据到方法的全面升级

团队设计了一套“规划中心型”数据格式,比如“取番茄加热”这个任务,会明确拆成“导航到冰箱→打开冰箱→取番茄→加热”等步骤,每个步骤都对应具体动作。

数据来源也很杂,既有10万级的通用对话样本,也有50万条空间推理数据,连老人用手势控制家电的场景都考虑到了。

训练时先用监督微调打基础,再用独创的Step-GRPO强化学习让模型“举一反三”,比如教它“取苹果”后,它能自己学会“取橙子”,还能比传统方法快20%完成训练。

最近一个月,这套技术已经在真实场景里落地了。

从单场景到多协同

上海有个社区试点了搭载该模型的养老服务机器人,有位独居老人不小心把汤洒在地上,机器人看到后立刻规划了处理流程:先通过语音提示“地面湿滑请小心”,再导航到储物间取拖把,拖地时还会避开老人常走的路线。

更有意思的是,机器人发现老人没吃午饭,还主动问“是否需要加热冰箱里的馒头”,整个过程没出一点错,反应时间不到1秒。

负责试点的工作人员说,之前用其他品牌机器人,要么识别不出地面水渍,要么取拖把时会撞翻椅子,现在这个成功率高多了。

性能数据更是实打实的硬。

在14项主流测试里,EmbodiedBrain-32B版本在空间推理的BLINK基准上拿到88.11分,比同类7B模型高了近40分;在最考验真功夫的VLM-PlanSim-99仿真测试中,它完成了46个家庭任务,而同类产品最多只完成25个。

就拿“清洗苹果后放冰箱”这个任务来说,它能生成11步完整流程,从“导航到水槽”“打开水龙头”到“擦干苹果”“放入冰箱冷藏室”,每一步都符合生活逻辑,而其他模型要么漏掉“擦干”步骤,要么会把苹果放进冷冻室。

更让人佩服的是,中兴直接把模型的训练数据、代码和评估方法全开源了,还公开了99个家庭任务的仿真环境。

这意味着其他企业和科研机构不用从零开始,直接就能在这个基础上做开发。

团队负责人说,接下来要让模型支持多机器人协作,比如家里的清洁机器人和厨房机器人能配合做饭,工厂里的搬运机器人和组装机器人能协同作业,还要适配更多品牌的硬件设备。

从实验室数据到真实场景落地,从中兴的技术突破到全行业共享,EmbodiedBrain让我们看到了AI落地的清晰路径。

随着这类技术的普及,未来机器人帮我们做家务、照顾老人、打理工厂将不再是遥不可及的事,中国在具身智能领域的竞争力也越来越强了。