标题:跨维智能DexWorldModel斩获榜首,世界模型真正的考场在机器人执行里
正文:
今年4月,具身智能领域迎来重要转折。Generalist AI发布GEN-1,在成功率、速度和数据效率上实现跨越式提升,同时其CEO Pete Florence宣布不再将模型归类为VLA(视觉-语言-动作)。Florence指出,“世界模型”正迎来高光时刻,而VLA只是过渡期的“拐杖”。一旦物理交互数据规模足够,机器人需要的是能支撑真实任务的下一代具身模型。
当前许多“世界模型”仍停留在视频生成范式,关注像素级拟合未来帧,而非对行动有意义的状态。这类模型在真实机器人任务中暴露出四大瓶颈:表示瓶颈(过度关注无关细节)、记忆瓶颈(长时任务难以稳定)、推理瓶颈(串行延迟高)和数据瓶颈(缺乏持续新鲜的数据流)。这些问题不解决,“世界模型”难落地。
评价标准也需重新审视。现有榜单多聚焦视频生成质量,但清华等机构发布的WorldArena基准显示,高视觉质量并不等于强具身任务能力。跨维智能明确立场:具身世界模型的唯一合理指标是机器人任务成功率。RoboTwin榜单正是以此为核心,考察模型能否让机器人稳定完成多样化任务。
DexWorldModel通过四层协同设计直面这些挑战:
1. 表示层:切换到语义特征预测,避免像素重建干扰,聚焦可操作状态。
2. 记忆层:双状态测试时记忆机制隔离真实与推测历史,压缩长时内存占用至常数级。
3. 推理层:推测式异步推理(SAI)将一半推理时间隐藏在动作执行中,显著降低延迟。
4. 数据层:EmbodiChain构建在线闭环,持续注入新鲜数据,提升模型泛化能力。
结果令人瞩目:在仿真环境RoboTwin上,DexWorldModel以94.00%的平均成功率夺冠,并在四个真实机器人任务中实现零样本sim-to-real,超越多个微调基线。这证明了系统性重做世界模型的有效性。
跨维智能开源EmbodiChain,推动行业从“模型更大”转向“数据更持续、更新鲜、更物理可信”。这是迈向真机部署的重要一步。
总结而言,DexWorldModel的意义不仅在于技术突破,更在于直面真实部署的核心问题。跨维智能选择与真实世界赛跑,逐步缩小概念与落地之间的差距。
项目主页:https://dexforce.com/embodichain/index.html
-
2026-04-21 17:21:09 -
2026-04-21 17:20:04 -
2026-04-21 17:18:58