12月2日,字节跳动Seed团队发布最新研究成果GR-RL,首次实现机器人真机强化学习完成整只鞋连续穿鞋带的任务。GR-RL通过从离线数据筛选到在线真机微调的强化学习框架,显著提升了操作成功率。相比前作监督学习模型GR-3,GR-RL将穿鞋带任务的成功率从45.7%提升至83.3%,同时减少了近70%的失败情况。这一成果拓展了VLA模型在长时程精细灵巧操作方面的能力边界,为机器人技术的发展提供了重要参考。
原文链接
本文链接:https://kx.umi6.com/article/29509.html
转载请注明文章出处
相关推荐
换一换
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
蚂蚁集团开源 Awex 框架,秒级完成 TB 级参数交换
2025-11-20 10:17:17
小米应用商店与字节跳动旗下一站式AI Agent开发平台扣子达成合作
2025-08-01 17:05:39
字节Seed团队推出3D生成大模型Seed3D 1.0
2025-10-23 16:12:12
字节跳动发布通用机器人模型GR-3
2025-07-22 12:32:35
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025-10-20 15:08:42
字节跳动即梦图片 4.0 发布:首次支持多模态生图,大白话就能编辑
2025-09-08 09:55:00
消息称字节为 Seed 部门 AI 大模型技术员工发放期权津贴,每月最高价值 13.5 万元
2025-09-05 00:09:19
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
578 文章
345402 浏览
24小时热文
更多
-
2025-12-07 22:52:28 -
2025-12-07 22:51:22 -
2025-12-07 21:52:07