跨维智能DexWorldModel斩获榜首，世界模型真正的考场在机器人执行里

2026-04-21 08:50:24

AI创想团

发布在

科普

阅读：618

标题：跨维智能DexWorldModel斩获榜首，世界模型真正的考场在机器人执行里

正文：
今年4月，具身智能领域迎来重要转折。Generalist AI发布GEN-1，在成功率、速度和数据效率上实现跨越式提升，同时其CEO Pete Florence宣布不再将模型归类为VLA（视觉-语言-动作）。Florence指出，“世界模型”正迎来高光时刻，而VLA只是过渡期的“拐杖”。一旦物理交互数据规模足够，机器人需要的是能支撑真实任务的下一代具身模型。

当前许多“世界模型”仍停留在视频生成范式，关注像素级拟合未来帧，而非对行动有意义的状态。这类模型在真实机器人任务中暴露出四大瓶颈：表示瓶颈（过度关注无关细节）、记忆瓶颈（长时任务难以稳定）、推理瓶颈（串行延迟高）和数据瓶颈（缺乏持续新鲜的数据流）。这些问题不解决，“世界模型”难落地。

评价标准也需重新审视。现有榜单多聚焦视频生成质量，但清华等机构发布的WorldArena基准显示，高视觉质量并不等于强具身任务能力。跨维智能明确立场：具身世界模型的唯一合理指标是机器人任务成功率。RoboTwin榜单正是以此为核心，考察模型能否让机器人稳定完成多样化任务。

DexWorldModel通过四层协同设计直面这些挑战：
1. 表示层：切换到语义特征预测，避免像素重建干扰，聚焦可操作状态。
2. 记忆层：双状态测试时记忆机制隔离真实与推测历史，压缩长时内存占用至常数级。
3. 推理层：推测式异步推理（SAI）将一半推理时间隐藏在动作执行中，显著降低延迟。
4. 数据层：EmbodiChain构建在线闭环，持续注入新鲜数据，提升模型泛化能力。

结果令人瞩目：在仿真环境RoboTwin上，DexWorldModel以94.00%的平均成功率夺冠，并在四个真实机器人任务中实现零样本sim-to-real，超越多个微调基线。这证明了系统性重做世界模型的有效性。

跨维智能开源EmbodiChain，推动行业从“模型更大”转向“数据更持续、更新鲜、更物理可信”。这是迈向真机部署的重要一步。

总结而言，DexWorldModel的意义不仅在于技术突破，更在于直面真实部署的核心问题。跨维智能选择与真实世界赛跑，逐步缩小概念与落地之间的差距。

项目主页：https://dexforce.com/embodichain/index.html

原文链接

本文链接：https://kx.umi6.com/article/34994.html

转载请注明文章出处

世界模型