1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

缺数据也能拿SOTA?清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作(VLA)模型是实现机器人复杂操作的关键,但其训练面临数据采集成本高和泛化能力不足的瓶颈。为此,研究团队提出了SimpleVLA-RL框架,基于veRL扩展,通过交互式轨迹采样、结果奖励建模和探索增强等设计,显著提升了VLA模型的训练效率与性能。

SimpleVLA-RL解决了三大核心问题:降低对大规模演示数据的依赖、增强分布偏移场景下的泛化能力、实现高效的仿真到现实(Sim-to-Real)迁移。实验表明,在LIBERO与RoboTwin基准测试中,该框架均达到SoTA性能。即使在有限数据条件下,如单轨迹微调场景下,OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%,长时序任务LIBERO-Long从17.3%提升至91.7%。

此外,模型展现出自主探索能力,涌现出“Pushcut”现象——通过“推动”替代“抓取”,突破人类演示模式。这表明SimpleVLA-RL不仅提升了数据效率和泛化能力,还为机器人学习提供了新路径。

框架亮点
SimpleVLA-RL采用端到端在线训练方案,包含四大设计:
1. 交互式轨迹采样:动态更新视觉观测与机器人状态,生成多样轨迹;
2. 结果奖励建模:使用简单二元奖励(成功记1,失败记0),避免复杂过程奖励的不可迁移性;
3. 探索增强:通过动态采样、扩大裁剪区间和提高采样温度,鼓励多样化探索;
4. 简化训练目标:移除KL散度正则项,减少内存消耗,促进新行为探索。

主要贡献
- 构建高效RL框架,支持规模化训练;
- 刷新多个基准测试性能,超越现有SOTA模型;
- 提升数据效率与泛化能力,仅需单条演示轨迹即可显著提升成功率;
- 实现强大的Sim-to-Real迁移,无需额外真实数据;
- 发现“Pushcut”新策略,证明RL能突破人类演示局限。

实验结果
在LIBERO、RoboTwin 1.0/2.0基准测试中,SimpleVLA-RL显著优于现有方法。例如,LIBERO-Long任务成功率从17.1%提升至91.7%;RoboTwin 2.0的超长时序任务提升18.7个百分点。真实世界测试中,AgileX Piper机械臂的成功率从17.5%提升至38.5%。

论文链接:https://arxiv.org/pdf/2509.09674
代码链接:https://github.com/PRIME-RL/SimpleVLA-RL

原文链接
本文链接:https://kx.umi6.com/article/25909.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
2025-11-18 15:24:50
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
Cursor自研模型反超Opus 4.6!价格脚踝斩,氛围编程沸腾了
2026-03-20 12:25:37
突破多模态奖励瓶颈!中科院清华快手联合提出R1-Reward,用强化学习赋予模型长期推理能力
2025-05-08 18:33:15
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
给机器人装上“离线大脑”+“安卓系统” 谷歌端上“自家最强”VLA模型
2025-06-26 16:00:33
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026
2026-03-24 11:45:18
24小时热文
更多
扫一扫体验小程序