Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控
在机器人操控领域,Vision-Language-Action (VLA) 模型曾被视为实现通用机器人的关键,但其面临两大瓶颈:一是对大规模高质量数据的依赖,遇到分布外场景时性能骤降;二是微调动作控制会削弱模型的高层语义理解与推理能力,导致“有手无脑”的问题。
为此,Dexmal原力灵机团队提出了多智能体协作系统ManiAgent。它摒弃了单一巨大黑盒模型的思路,转而采用Agentic(智能体化)设计,将复杂任务分解为多个子任务,由不同智能体分工完成。ManiAgent通过现有大语言模型(LLM)的强大推理能力,构建了一个无需训练的框架,直接将自然语言指令转化为机器人动作,既降低了数据成本,又保留了LLM的逻辑推理优势。
ManiAgent的核心是一个“感知-推理-控制”闭环Pipeline,包含四个智能体:
1. 场景感知Agent:利用视觉语言模型生成场景描述,并通过优化Prompt提升精度,同时结合检测模型实现深度感知。
2. 推理与规划Agent:基于LLM拆解任务,采用增量式规划和记忆机制避免累积误差与死循环。
3. 物体感知Agent:定位目标物体,解决多实例消歧问题,并生成抓取姿态。
4. 控制器Agent:直接输出动作序列,减少人为定义API的工作量,并通过缓存机制提升效率。
实验表明,ManiAgent在仿真环境SimplerEnv中成功率高达86.8%,远超传统VLA模型;在真实世界测试中,搭载高性能模型的成功率更达95.8%,能够处理模糊指令、相对位置感知和长序列规划等复杂任务。此外,ManiAgent还能自动生成高质量数据,反哺VLA模型训练,形成数据飞轮效应。
ManiAgent不仅解决了当前机器人操控的痛点,还为自动化数据生成提供了新思路,未来有望扩展至更多平台并增强人机交互能力。
-
2025-12-17 15:56:34 -
2025-12-17 15:55:30 -
2025-12-17 15:54:23