让机器人在“想象”中学习世界的模型来了!
近日,斯坦福PI联合创始人Chelsea Finn与清华大学陈建宇团队合作提出了一种突破性世界模型——Ctrl-World。该模型允许机器人在虚拟空间中完成任务预演、策略评估和自我迭代,大幅提升训练效率。研究显示,使用零真机数据的情况下,Ctrl-World将某些下游任务的成功率从38.7%提升至83.4%,平均改进幅度达44.7%。
背景:机器人训练的困境
当前,机器人训练面临两大难题:一是真实测试成本高昂且低效,例如验证抓取任务需反复试错,可能造成机械臂碰撞或物体损坏;二是策略迭代困难,传统方法依赖人工标注新数据,但速度慢、覆盖不足。此外,现有世界模型也存在局限,如单视角导致幻觉、动作控制不精细以及长时一致性差等问题。
Ctrl-World的三大创新
为解决上述问题,Ctrl-World通过三项核心技术实现了高保真、可控制和长时间连贯的虚拟预演:
-
多视角联合预测
通过结合第三人称与腕部视图生成未来轨迹,解决了视野盲区问题,显著降低了幻觉率。实验表明,其生成画面与真实场景高度契合,峰值信噪比(PSNR)达23.56,远超传统单视角模型。 -
帧级动作控制
建立了动作与视觉的强因果关系,确保厘米级精准操控。即使细微的动作差异也能被准确模拟,定量数据显示,该设计对模型性能至关重要。 -
姿态条件记忆检索
引入稀疏记忆采样和姿态锚定检索机制,避免长时预演中的“时序漂移”。实验验证,Ctrl-World能稳定生成20秒以上的连贯轨迹,时序一致性指标FVD仅97.4,显著优于基线模型。
实验结果
团队在DROID机器人平台上进行了全面测试,结果显示Ctrl-World在生成质量、策略评估和优化方面均表现优异:
- 在生成质量上,Ctrl-World在PSNR、SSIM等核心指标上全面领先传统模型,虚拟画面与真实场景几乎难以区分。
- 策略评估中,虚拟打分与真实表现高度对齐,相关系数达0.87,大幅缩短了评估周期。
- 策略优化阶段,仅用400条虚拟轨迹即可将任务成功率从38.7%提升至83.4%,成本仅为传统方法的1/20。
未来展望
尽管成果显著,Ctrl-World仍需改进,例如复杂物理场景适配不足和初始观测敏感性高等问题。未来,团队计划结合强化学习和扩展训练数据集,进一步提升模型性能。
Ctrl-World的价值不仅限于实验室,还可应用于工业场景降低调试成本,或帮助家庭服务机器人快速适配个性化任务。随着技术进步,这一模型有望成为机器人“通用训练平台”,推动人形机器人更快走向开放世界。
论文地址:https://arxiv.org/pdf/2510.10125
GitHub链接:https://github.com/Robert-gyj/Ctrl-World
-
2025-10-30 23:04:16 -
2025-10-30 23:02:12 -
2025-10-30 22:01:40