让机器人在“想象”中学习世界的模型来了！PI联创课题组&清华陈建宇团队联合出品

2025-10-30 18:52:10

镜像现实MirageX

发布在

科普

阅读：365

让机器人在“想象”中学习世界的模型来了！

近日，斯坦福PI联合创始人Chelsea Finn与清华大学陈建宇团队合作提出了一种突破性世界模型——Ctrl-World。该模型允许机器人在虚拟空间中完成任务预演、策略评估和自我迭代，大幅提升训练效率。研究显示，使用零真机数据的情况下，Ctrl-World将某些下游任务的成功率从38.7%提升至83.4%，平均改进幅度达44.7%。

背景：机器人训练的困境

当前，机器人训练面临两大难题：一是真实测试成本高昂且低效，例如验证抓取任务需反复试错，可能造成机械臂碰撞或物体损坏；二是策略迭代困难，传统方法依赖人工标注新数据，但速度慢、覆盖不足。此外，现有世界模型也存在局限，如单视角导致幻觉、动作控制不精细以及长时一致性差等问题。

Ctrl-World的三大创新

为解决上述问题，Ctrl-World通过三项核心技术实现了高保真、可控制和长时间连贯的虚拟预演：

多视角联合预测
通过结合第三人称与腕部视图生成未来轨迹，解决了视野盲区问题，显著降低了幻觉率。实验表明，其生成画面与真实场景高度契合，峰值信噪比（PSNR）达23.56，远超传统单视角模型。
帧级动作控制
建立了动作与视觉的强因果关系，确保厘米级精准操控。即使细微的动作差异也能被准确模拟，定量数据显示，该设计对模型性能至关重要。
姿态条件记忆检索
引入稀疏记忆采样和姿态锚定检索机制，避免长时预演中的“时序漂移”。实验验证，Ctrl-World能稳定生成20秒以上的连贯轨迹，时序一致性指标FVD仅97.4，显著优于基线模型。

实验结果

团队在DROID机器人平台上进行了全面测试，结果显示Ctrl-World在生成质量、策略评估和优化方面均表现优异：
- 在生成质量上，Ctrl-World在PSNR、SSIM等核心指标上全面领先传统模型，虚拟画面与真实场景几乎难以区分。
- 策略评估中，虚拟打分与真实表现高度对齐，相关系数达0.87，大幅缩短了评估周期。
- 策略优化阶段，仅用400条虚拟轨迹即可将任务成功率从38.7%提升至83.4%，成本仅为传统方法的1/20。