12月2日,字节跳动Seed团队发布最新研究成果GR-RL,首次实现机器人真机强化学习完成整只鞋连续穿鞋带的任务。GR-RL通过从离线数据筛选到在线真机微调的强化学习框架,显著提升了操作成功率。相比前作监督学习模型GR-3,GR-RL将穿鞋带任务的成功率从45.7%提升至83.3%,同时减少了近70%的失败情况。这一成果拓展了VLA模型在长时程精细灵巧操作方面的能力边界,为机器人技术的发展提供了重要参考。
原文链接
本文链接:https://kx.umi6.com/article/29509.html
转载请注明文章出处
相关推荐
换一换
字节跳动开源长文本处理模型Seed-OSS-36B
2025-08-21 14:39:00
AI助手Cici悄然霸榜海外,又是字节
2025-10-20 13:05:07
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
字节跳动发布 Seedance 1.5 pro 模型,支持音视频联合生成
2025-12-16 21:00:49
张一鸣门徒的AI战争:不做通用大模型,专攻“大厂缝隙”
2025-08-01 15:06:59
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
2025上半年,AI Agent领域有什么变化和机会?
2025-07-11 08:33:06
投资界24h |字节跳动,新王炸诞生了;海光信息、中科曙光终止重大资产重组;嘉御资本募资,超40亿
2025-12-10 09:33:07
腾讯回应“双倍薪水挖角字节AI人才” :外界传闻,无法回复
2025-12-12 16:02:05
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
616 文章
415694 浏览
24小时热文
更多
-
2026-01-22 04:36:47 -
2026-01-22 00:31:16 -
2026-01-21 23:30:59