没人宣发却双榜第一,这国产AI究竟藏了什么“大招”?
发布时间:2026-05-01 04:00 浏览量:1
机器人突然刷了两个第一,没人发通稿,也没人开发布会,连推特账号都是新注册的。4月21号,WorldArena和RoboTwin2.0两个榜单同时更新,一个叫MotuBrain的模型全拿了榜首——这事在圈内炸了,但外面几乎没人知道。
它没logo,没融资新闻,没KOL带节奏,连生数科技自己都等到4月29号才在官网轻描淡写挂了句“认领”。这不是低调,是真没打算让人注意。可数据摆在那里:世界arena动作质量分63.77,RoboTwin2.0清洁场景95.8、随机扰动场景96.1——这两个数平时根本不可能一起出现。
WorldArena不是考视频好不好看,是看机器人动得像不像真人。动作僵不僵、停不停顿、转得顺不顺,全算分。63.77这个数,意味着它端个杯子、转身放东西、手肘弯曲的角度,都跟人差不多自然。RoboTwin2.0更狠,不是让你做一遍标准动作,而是突然打翻水瓶、抽走垫子、把杯子换位置,看你还能不能把任务做完。96.1的分数,说明它不是靠背套路,是真的能“反应过来”。
以前大家做具身AI,要么先堆一堆传感器让机器人看懂世界,再另外写一套代码让它动;要么干脆只管动作不管理解,像跳舞机器人,动作精准但不知道自己在干啥。MotuBrain不一样,它把“看”和“动”塞进同一个模型里,用的是统一的隐空间——眼睛看到的和手脚要做的,在脑子里是同一种语言。
它还专门加了个潜动作VAE,不是直接输出关节角度,而是学人类怎么从“想拿杯子”变成“伸手、屈腕、合指、提杯”这一串物理动作。所以它倒酒不会泼,插花不会把花瓣捏烂,煮火锅时察觉汤快溢了,会立刻调小火,而不是等传感器报警再动。
最实的不是分数,是它真在干的事。插完花自动去给植物浇水;调完一杯莫吉托,顺手把托盘端到客人面前;煮着火锅还能腾出手把果汁倒进玻璃杯——中间不是一串预设指令,是它自己发现勺子空了,重新捞;发现托盘歪了,马上调正;发现客人挪了椅子,自己后退半步再上托盘。
现在大部分机器人公司,换个机械臂就得重训模型,换种底盘又得调参数,AI成了每个硬件的“定制嫁衣”,越做越贵。MotuBrain反着来,它学的不是哪台机器怎么动,而是“液体怎么流、布料怎么皱、人手怎么发力”这些底层物理规律。所以它跑在双臂机器人上行,在轮式平台上也行,甚至未来装进外骨骼里,也不用推倒重来。
国外同期几个模型,任务一多准确率就掉——Pi-0.5做三个动作还行,到第五个就开始错;MotuBrain反而任务越多,泛化越稳。这不是优化得好,是它真的开始“理解世界是怎么运行的”,而不是记住怎么完成任务。
生数科技之前做了Vidu,一个做视频生成的模型;现在又出MotuBrain,做物理世界的行动。一个生成世界,一个走进世界。它们没喊什么大口号,但这两条线一搭上,就等于在建一套不用依赖英伟达芯片、不靠OpenAI API、能自己看懂物理规律还能动手干活的系统。
硅谷喜欢边做边发论文、边开源边拉社区,中国团队这次选择了先干出来,再说话。不是不想说,是怕说得早了,别人还没看清门在哪,自己已经把钥匙造好了。
它能预判你手滑杯子要掉,能看出来沙发靠枕歪了3厘米该摆回去,能在火锅滚起来前把火力压下去——这些动作背后没有人工规则,全是它自己从数据里学出来的因果链。
真正的智能不是多快多准,是它动之前,脑子里已经演过十种可能。
没人宣传却双榜第一,刷榜背后藏了啥,它到底在学什么。