标题:卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
正文:
机器人行业面临的真正挑战是让机器在真实世界中将理解转化为稳定可控的行动。具身智能的难点不在于一次漂亮的演示,而在于跨环境、物体和硬件时仍能可靠工作。当前,机器人策略的通用化面临三道门槛:形态割裂、数据成本与覆盖不足、部署系统的稳定性问题。
针对这些难题,智在无界创始人卢宗青团队提出论文《Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization》,探索了一条更接近工程闭环的通用操控路线。他们通过大规模人类操控数据建立跨形态动作先验,统一state-action空间解决硬件差异,并结合动作生成建模与稳定部署机制,系统性解决了通用机器人策略在多形态平台上的部署问题。
实验结果表明,专用型模型(Being-H0.5-specialist)表现最佳,而通用型模型(Being-H0.5-generalist)仅略低,尤其在共享技能强的任务上差距更小。研究还发现,在长程任务(Long-horizon)和双臂任务(Bimanual)中,通用型模型表现出显著提升,这验证了其在复杂场景中的稳定性。此外,在某些任务(如清桌子)中,通用型模型甚至接近或超过专用型模型,因其学习了更多通用子技能,避免了过拟合特定动作习惯。
关键消融实验显示,UniHand-2.0预训练对通用型模型至关重要。这套数据集规模超35,000小时,包含120B tokens与400M samples,融合了人类手部操作、机器人操控和视觉语言理解数据,为模型提供了丰富的动作先验与语义对齐基础。仿真基准实验中,Being-H0.5在LIBERO和RoboCasa等复杂任务中表现优异,成功率分别达到98.9%和53.9%。
为确保真实部署稳定性,研究引入MPG和UAC机制,分别抑制不合理动作输出和解决感知帧率与控制频率不同步问题。消融实验表明,去掉这些机制后,长程和双臂任务性能显著下降,凸显了稳定性机制的重要性。
这项研究证明了跨形态统一动作学习的可行性,强调了人类动作数据作为通用策略底座的价值,并指出了机器人智能的核心难点在于可部署的长程稳定性。通过从数据到部署的全链路构建,该研究为通用机器人操控智能的发展提供了清晰范式。
卢宗青是北京大学计算机学院长聘副教授,主要研究强化学习、多模态大模型和具身智能,发表领域顶级论文100余篇,担任ICML、ICLR、NeurIPS等会议领域主席。
参考链接:https://z0ngqing.github.io/
-
2026-01-22 18:06:16 -
2026-01-22 18:04:11 -
2026-01-22 17:04:48