标题:北大卢宗青团队新作:超 70% 实机成功率,支持语言指令的功能性抓取系统
在机器人研究中,抓取问题正成为智能发展的关键。尽管大模型已能理解语言和规划任务,但在物理接触中仍显笨拙。现有研究多关注稳定性,但功能性抓取更接近真实智能,例如端杯倒水、握锤敲击等。难点在于,功能性抓取涉及物体结构、用途及操控部位的综合理解,传统方法难以应对灵巧手的高维控制空间。
北京大学卢宗青团队提出了一种名为 DemoFunGrasp 的方法,通过演示编辑强化学习重新建模功能性抓取。该方法不仅关注是否抓住物体,还聚焦于如何围绕功能需求进行抓取,将功能位置与抓取姿态纳入统一框架,并在仿真与真实环境中验证,成功率达 70% 以上。
实验表明,DemoFunGrasp 在大规模仿真环境中表现优异,涵盖 3000 多种不同形状和功能的物体。机器人能在功能约束下完成抓取,如抓住杯子把手或喷壶扳机。此外,功能区域对准精度显著提高,偏差降至约 3 厘米,而传统方法常偏离功能点。抓取风格也表现出多样性和可控性,策略能根据输入生成不同抓取姿态,如捏持、侧持等。
在真实机器人平台上,研究使用 7 自由度机械臂加灵巧手系统测试日常物体,仅依赖摄像头图像即取得超过 70% 的成功率。机器人不仅能完成抓取,还能执行后续功能动作,如倒水或喷洒。消融实验证明,设计中的关键模块不可或缺,例如风格扰动机制和尺寸归一化。
研究的核心思想是将“功能抓取”从直觉概念转化为建模问题,结合强化学习与模仿学习求解。团队引入演示编辑强化学习,通过基础示范轨迹降低学习难度,并设计奖励函数确保功能与风格约束。此外,视觉语言模型被用于理解语言指令,定位功能区域并指导抓取。
这项研究的意义在于:1)将抓取目标从“几何稳定性”转向“语义功能性”,迈向智能操作;2)为灵巧手强化学习提供新路径,适用于多种复杂任务;3)构建完整闭环,实现从语言到低层控制的自主决策。
通讯作者卢宗青为北京大学副教授,长期致力于多模态模型与强化学习结合,其成果已在多家企业应用。2025 年,他创立北京智在无界科技有限公司,推动多模态姿态模型研发与产业化。
论文地址:https://arxiv.org/pdf/2512.13380v1
参考链接:https://z0ngqing.github.io/
-
2026-01-14 12:34:18 -
2026-01-14 12:31:30 -
2026-01-14 11:47:21