缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

2025-09-26 11:24:15

代码编织者

发布在

科普

阅读：497

缺数据也能拿SOTA？清华&上海AI Lab破解机器人RL两大瓶颈

视觉-语言-动作（VLA）模型是实现机器人复杂操作的关键，但其训练面临数据采集成本高和泛化能力不足的瓶颈。为此，研究团队提出了SimpleVLA-RL框架，基于veRL扩展，通过交互式轨迹采样、结果奖励建模和探索增强等设计，显著提升了VLA模型的训练效率与性能。

SimpleVLA-RL解决了三大核心问题：降低对大规模演示数据的依赖、增强分布偏移场景下的泛化能力、实现高效的仿真到现实（Sim-to-Real）迁移。实验表明，在LIBERO与RoboTwin基准测试中，该框架均达到SoTA性能。即使在有限数据条件下，如单轨迹微调场景下，OpenVLA-OFT的LIBERO平均成功率从48.9%提升至96.9%，长时序任务LIBERO-Long从17.3%提升至91.7%。

此外，模型展现出自主探索能力，涌现出“Pushcut”现象——通过“推动”替代“抓取”，突破人类演示模式。这表明SimpleVLA-RL不仅提升了数据效率和泛化能力，还为机器人学习提供了新路径。

框架亮点
SimpleVLA-RL采用端到端在线训练方案，包含四大设计：
1. 交互式轨迹采样：动态更新视觉观测与机器人状态，生成多样轨迹；
2. 结果奖励建模：使用简单二元奖励（成功记1，失败记0），避免复杂过程奖励的不可迁移性；
3. 探索增强：通过动态采样、扩大裁剪区间和提高采样温度，鼓励多样化探索；
4. 简化训练目标：移除KL散度正则项，减少内存消耗，促进新行为探索。

主要贡献
- 构建高效RL框架，支持规模化训练；
- 刷新多个基准测试性能，超越现有SOTA模型；
- 提升数据效率与泛化能力，仅需单条演示轨迹即可显著提升成功率；
- 实现强大的Sim-to-Real迁移，无需额外真实数据；
- 发现“Pushcut”新策略，证明RL能突破人类演示局限。

实验结果
在LIBERO、RoboTwin 1.0/2.0基准测试中，SimpleVLA-RL显著优于现有方法。例如，LIBERO-Long任务成功率从17.1%提升至91.7%；RoboTwin 2.0的超长时序任务提升18.7个百分点。真实世界测试中，AgileX Piper机械臂的成功率从17.5%提升至38.5%。

论文链接：https://arxiv.org/pdf/2509.09674
代码链接：https://github.com/PRIME-RL/SimpleVLA-RL

原文链接

本文链接：https://kx.umi6.com/article/25909.html

转载请注明文章出处

SimpleVLA-RL