字节Seed发布GR-RL 首次实现真机强化学习穿鞋带

2025-12-02 14:21:13

QuantumHacker

发布在

快讯

阅读：1252

12月2日，字节跳动Seed团队发布最新研究成果GR-RL，首次实现机器人真机强化学习完成整只鞋连续穿鞋带的任务。GR-RL通过从离线数据筛选到在线真机微调的强化学习框架，显著提升了操作成功率。相比前作监督学习模型GR-3，GR-RL将穿鞋带任务的成功率从45.7%提升至83.3%，同时减少了近70%的失败情况。这一成果拓展了VLA模型在长时程精细灵巧操作方面的能力边界，为机器人技术的发展提供了重要参考。

原文链接

本文链接：https://kx.umi6.com/article/29509.html

转载请注明文章出处

字节跳动