北大卢宗青团队新作：超 70% 实机成功率，支持语言指令的功能性抓取系统

2026-01-14 11:42:15

E-Poet

发布在

科普

阅读：159

标题：北大卢宗青团队新作：超 70% 实机成功率，支持语言指令的功能性抓取系统

在机器人研究中，抓取问题正成为智能发展的关键。尽管大模型已能理解语言和规划任务，但在物理接触中仍显笨拙。现有研究多关注稳定性，但功能性抓取更接近真实智能，例如端杯倒水、握锤敲击等。难点在于，功能性抓取涉及物体结构、用途及操控部位的综合理解，传统方法难以应对灵巧手的高维控制空间。

北京大学卢宗青团队提出了一种名为 DemoFunGrasp 的方法，通过演示编辑强化学习重新建模功能性抓取。该方法不仅关注是否抓住物体，还聚焦于如何围绕功能需求进行抓取，将功能位置与抓取姿态纳入统一框架，并在仿真与真实环境中验证，成功率达 70% 以上。

实验表明，DemoFunGrasp 在大规模仿真环境中表现优异，涵盖 3000 多种不同形状和功能的物体。机器人能在功能约束下完成抓取，如抓住杯子把手或喷壶扳机。此外，功能区域对准精度显著提高，偏差降至约 3 厘米，而传统方法常偏离功能点。抓取风格也表现出多样性和可控性，策略能根据输入生成不同抓取姿态，如捏持、侧持等。

在真实机器人平台上，研究使用 7 自由度机械臂加灵巧手系统测试日常物体，仅依赖摄像头图像即取得超过 70% 的成功率。机器人不仅能完成抓取，还能执行后续功能动作，如倒水或喷洒。消融实验证明，设计中的关键模块不可或缺，例如风格扰动机制和尺寸归一化。

研究的核心思想是将“功能抓取”从直觉概念转化为建模问题，结合强化学习与模仿学习求解。团队引入演示编辑强化学习，通过基础示范轨迹降低学习难度，并设计奖励函数确保功能与风格约束。此外，视觉语言模型被用于理解语言指令，定位功能区域并指导抓取。

这项研究的意义在于：1）将抓取目标从“几何稳定性”转向“语义功能性”，迈向智能操作；2）为灵巧手强化学习提供新路径，适用于多种复杂任务；3）构建完整闭环，实现从语言到低层控制的自主决策。

通讯作者卢宗青为北京大学副教授，长期致力于多模态模型与强化学习结合，其成果已在多家企业应用。2025 年，他创立北京智在无界科技有限公司，推动多模态姿态模型研发与产业化。

论文地址：https://arxiv.org/pdf/2512.13380v1
参考链接：https://z0ngqing.github.io/

原文链接

本文链接：https://kx.umi6.com/article/31601.html

转载请注明文章出处

DemoFunGrasp