1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

让机器人在“想象”中学习世界的模型来了!

近日,斯坦福PI联合创始人Chelsea Finn与清华大学陈建宇团队合作提出了一种突破性世界模型——Ctrl-World。该模型允许机器人在虚拟空间中完成任务预演、策略评估和自我迭代,大幅提升训练效率。研究显示,使用零真机数据的情况下,Ctrl-World将某些下游任务的成功率从38.7%提升至83.4%,平均改进幅度达44.7%。

背景:机器人训练的困境

当前,机器人训练面临两大难题:一是真实测试成本高昂且低效,例如验证抓取任务需反复试错,可能造成机械臂碰撞或物体损坏;二是策略迭代困难,传统方法依赖人工标注新数据,但速度慢、覆盖不足。此外,现有世界模型也存在局限,如单视角导致幻觉、动作控制不精细以及长时一致性差等问题。

Ctrl-World的三大创新

为解决上述问题,Ctrl-World通过三项核心技术实现了高保真、可控制和长时间连贯的虚拟预演:

  1. 多视角联合预测
    通过结合第三人称与腕部视图生成未来轨迹,解决了视野盲区问题,显著降低了幻觉率。实验表明,其生成画面与真实场景高度契合,峰值信噪比(PSNR)达23.56,远超传统单视角模型。

  2. 帧级动作控制
    建立了动作与视觉的强因果关系,确保厘米级精准操控。即使细微的动作差异也能被准确模拟,定量数据显示,该设计对模型性能至关重要。

  3. 姿态条件记忆检索
    引入稀疏记忆采样和姿态锚定检索机制,避免长时预演中的“时序漂移”。实验验证,Ctrl-World能稳定生成20秒以上的连贯轨迹,时序一致性指标FVD仅97.4,显著优于基线模型。

实验结果

团队在DROID机器人平台上进行了全面测试,结果显示Ctrl-World在生成质量、策略评估和优化方面均表现优异:
- 在生成质量上,Ctrl-World在PSNR、SSIM等核心指标上全面领先传统模型,虚拟画面与真实场景几乎难以区分。
- 策略评估中,虚拟打分与真实表现高度对齐,相关系数达0.87,大幅缩短了评估周期。
- 策略优化阶段,仅用400条虚拟轨迹即可将任务成功率从38.7%提升至83.4%,成本仅为传统方法的1/20。

未来展望

尽管成果显著,Ctrl-World仍需改进,例如复杂物理场景适配不足和初始观测敏感性高等问题。未来,团队计划结合强化学习和扩展训练数据集,进一步提升模型性能。

Ctrl-World的价值不仅限于实验室,还可应用于工业场景降低调试成本,或帮助家庭服务机器人快速适配个性化任务。随着技术进步,这一模型有望成为机器人“通用训练平台”,推动人形机器人更快走向开放世界。

论文地址:https://arxiv.org/pdf/2510.10125
GitHub链接:https://github.com/Robert-gyj/Ctrl-World

原文链接
本文链接:https://kx.umi6.com/article/27558.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
宇树科技新专利可提高机器人复杂环境作业能力
2025-08-19 14:00:41
直击IROS现场:宇树禾赛自变量杭州论剑,美团C位攒局
2025-10-27 16:04:39
宇树开源 UnifoLM-WMA-0 世界模型架构:可理解机器人与环境交互物理规律
2025-09-15 21:02:02
瑞士工程巨头 ABB 扩大在华机器人布局,推出三款新品瞄准中国中型企业
2025-07-03 22:31:41
“AI教母”李飞飞揭秘“世界模型”:要让AI像人类一样理解三维空间
2025-06-06 11:29:37
英伟达开源Newton引擎与GR00T N1.6模型
2025-09-30 08:28:35
机器人新势力估值断层加速,具身智能靠什么穿越风暴?
2025-06-17 12:22:06
独家|华为联合软通动力、道和通泰等探索具身智能落地
2025-06-23 10:30:40
万字长文实录:RL 界与 CV 界的“世界模型”有什么不同?丨GAIR Live
2025-09-08 18:05:56
造机器人,一场「全民运动」
2025-08-25 08:22:58
中国机器人将爆发式增长!大摩预测:市场规模四年内翻倍 占据全球统治地位
2025-06-19 09:53:42
造机器人:一场“谁都能干”的“全民运动”?
2025-08-23 20:05:24
黄仁勋:中国的开源AI是推动全球进步的催化剂 下一波浪潮是机器人
2025-07-16 14:04:11
24小时热文
更多
扫一扫体验小程序