1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

在机器人操控领域,Vision-Language-Action (VLA) 模型曾被视为实现通用机器人的关键,但其面临两大瓶颈:一是对大规模高质量数据的依赖,遇到分布外场景时性能骤降;二是微调动作控制会削弱模型的高层语义理解与推理能力,导致“有手无脑”的问题。

为此,Dexmal原力灵机团队提出了多智能体协作系统ManiAgent。它摒弃了单一巨大黑盒模型的思路,转而采用Agentic(智能体化)设计,将复杂任务分解为多个子任务,由不同智能体分工完成。ManiAgent通过现有大语言模型(LLM)的强大推理能力,构建了一个无需训练的框架,直接将自然语言指令转化为机器人动作,既降低了数据成本,又保留了LLM的逻辑推理优势。

ManiAgent的核心是一个“感知-推理-控制”闭环Pipeline,包含四个智能体:
1. 场景感知Agent:利用视觉语言模型生成场景描述,并通过优化Prompt提升精度,同时结合检测模型实现深度感知。
2. 推理与规划Agent:基于LLM拆解任务,采用增量式规划和记忆机制避免累积误差与死循环。
3. 物体感知Agent:定位目标物体,解决多实例消歧问题,并生成抓取姿态。
4. 控制器Agent:直接输出动作序列,减少人为定义API的工作量,并通过缓存机制提升效率。

实验表明,ManiAgent在仿真环境SimplerEnv中成功率高达86.8%,远超传统VLA模型;在真实世界测试中,搭载高性能模型的成功率更达95.8%,能够处理模糊指令、相对位置感知和长序列规划等复杂任务。此外,ManiAgent还能自动生成高质量数据,反哺VLA模型训练,形成数据飞轮效应。

ManiAgent不仅解决了当前机器人操控的痛点,还为自动化数据生成提供了新思路,未来有望扩展至更多平台并增强人机交互能力。

原文链接
本文链接:https://kx.umi6.com/article/30301.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
既强大又平庸,AI应用为何活得如此拧巴?
2025-06-24 14:17:34
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控
2025-12-16 15:47:47
百度心响上线iOS版,多智能体协作应用终于卷对地方了
2025-05-27 12:35:00
OpenAI 罕见开源,低调发布的新研究,一出来就被碰瓷
2024-10-15 18:57:16
拜拜邀请码!首个现货超级智能体实测
2025-04-26 12:43:34
百度推出通用多智能体协作 App 心响,已上线超 200 个任务类型
2025-04-25 12:09:48
美的医疗发布自主研发医学影像智能诊断大模型
2025-12-17 12:42:06
广州:积极推进全国首批车网互动规模化应用试点城市建设 促进车网协同互动
2025-12-16 15:53:25
Siri难道是装傻?
2025-12-16 10:33:30
覆盖多个前沿领域 2025年我国牵头制定国际标准275项
2025-12-16 17:55:05
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
2025-12-16 09:28:45
教育部:试点探索 AI 在日常考试命题、组卷、阅卷、分析等关键环节的场景应用
2025-12-17 15:52:01
AI生成《龙珠》真人版拍摄现场 美女如云啊
2025-12-16 14:47:51
24小时热文
更多
扫一扫体验小程序