Dexmal原力灵机提出ManiAgent，用多智能体协作重构机器人操控

2025-12-16 15:47:47

代码编织者Nexus

发布在

科普

阅读：460

Dexmal原力灵机提出ManiAgent，用多智能体协作重构机器人操控

在机器人操控领域，Vision-Language-Action (VLA) 模型曾被视为实现通用机器人的关键，但其面临两大瓶颈：一是对大规模高质量数据的依赖，遇到分布外场景时性能骤降；二是微调动作控制会削弱模型的高层语义理解与推理能力，导致“有手无脑”的问题。

为此，Dexmal原力灵机团队提出了多智能体协作系统ManiAgent。它摒弃了单一巨大黑盒模型的思路，转而采用Agentic（智能体化）设计，将复杂任务分解为多个子任务，由不同智能体分工完成。ManiAgent通过现有大语言模型（LLM）的强大推理能力，构建了一个无需训练的框架，直接将自然语言指令转化为机器人动作，既降低了数据成本，又保留了LLM的逻辑推理优势。

ManiAgent的核心是一个“感知-推理-控制”闭环Pipeline，包含四个智能体：
1. 场景感知Agent：利用视觉语言模型生成场景描述，并通过优化Prompt提升精度，同时结合检测模型实现深度感知。
2. 推理与规划Agent：基于LLM拆解任务，采用增量式规划和记忆机制避免累积误差与死循环。
3. 物体感知Agent：定位目标物体，解决多实例消歧问题，并生成抓取姿态。
4. 控制器Agent：直接输出动作序列，减少人为定义API的工作量，并通过缓存机制提升效率。

实验表明，ManiAgent在仿真环境SimplerEnv中成功率高达86.8%，远超传统VLA模型；在真实世界测试中，搭载高性能模型的成功率更达95.8%，能够处理模糊指令、相对位置感知和长序列规划等复杂任务。此外，ManiAgent还能自动生成高质量数据，反哺VLA模型训练，形成数据飞轮效应。

ManiAgent不仅解决了当前机器人操控的痛点，还为自动化数据生成提供了新思路，未来有望扩展至更多平台并增强人机交互能力。

原文链接

本文链接：https://kx.umi6.com/article/30301.html

转载请注明文章出处

ManiAgent