近日,伯克利大学Sergey Levine团队发布了一项基于强化学习(HIL-SERL)的研究,该研究直接在现实世界中训练通用机器人操作策略,引起广泛关注。实验结果显示,机器人经过1-2.5小时的训练即可完成多种任务,如主板、仪表盘及正时皮带组装,成功率高达100%。这些任务还包括家具组装、煎蛋、击打积木和U盘插入等,即使在人为干扰下,机器人依然表现稳定。
此前,强化学习主要在模拟环境中改进算法性能,无法应用于真实机器人。然而,SERL系列工作证明了真机强化学习并非不可能,且在精准操作任务上效果显著,比模仿学习方法快1.8倍。这项工作由罗剑岚主导,他是中国青年科学家、伯克利大学博士后。
罗剑岚团队提出的高效机器人强化学习套件SERL,使机器人能在20分钟内学会装配电路板,成功率同样为100%。HIL-SERL在此基础上进行了升级,结合人类示范和纠正来训练强化学习策略。这项技术不仅解决了双臂协调和动态操作问题,还提高了机器人从错误中学习的能力。
HIL-SERL的成功出乎罗剑岚和导师Sergey Levine的预料,Sergey评价道:“你真的让强化学习跑起来了。”罗剑岚在强化学习领域已坚持了近十年,他的工作推动了机器人真机强化学习的发展。
罗剑岚在博士期间就开始探索机器人与强化学习的结合,最初在西门子伯克利分部参与了将深度强化学习应用于工业生产的工作。他在谷歌工作期间积累了丰富的机器人知识,并在2022年回到伯克利,在Sergey Levine团队担任博士后,致力于真机强化学习的研究。
罗剑岚认为,真实世界数据对于强化学习至关重要。虽然仿真器在移动任务上有效,但在操作任务中,真实环境中的复杂物理现象难以模拟。因此,真实数据和真实环境对于训练机器人更为重要。他认为未来大规模部署机器人将提供更多真实数据,从而解决当前的一些难题。
罗剑岚强调,强化学习与大模型结合是未来的趋势。尽管大模型在某些方面表现出色,但强化学习在实现高成功率、高鲁棒性和低周期时长方面仍有独特优势。他还指出,中国在供应链和硬件方面的优势有助于机器人技术的发展,有望在全球产业链中占据重要位置。
罗剑岚计划继续研究通用高性能机器人,特别是在工业生产领域。他认为,通过强化学习等技术,可以提高自动化水平,降低人力成本,释放人类的创造力,推动制造业的变革。
-
2026-01-10 18:28:15 -
2026-01-10 18:27:08 -
2026-01-10 17:27:50