1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

在机器人操控领域,Vision-Language-Action (VLA) 模型曾被视为实现通用机器人的关键,但其面临两大瓶颈:一是对大规模高质量数据的依赖,遇到分布外场景时性能骤降;二是微调动作控制会削弱模型的高层语义理解与推理能力,导致“有手无脑”的问题。

为此,Dexmal原力灵机团队提出了多智能体协作系统ManiAgent。它摒弃了单一巨大黑盒模型的思路,转而采用Agentic(智能体化)设计,将复杂任务分解为多个子任务,由不同智能体分工完成。ManiAgent通过现有大语言模型(LLM)的强大推理能力,构建了一个无需训练的框架,直接将自然语言指令转化为机器人动作,既降低了数据成本,又保留了LLM的逻辑推理优势。

ManiAgent的核心是一个“感知-推理-控制”闭环Pipeline,包含四个智能体:
1. 场景感知Agent:利用视觉语言模型生成场景描述,并通过优化Prompt提升精度,同时结合检测模型实现深度感知。
2. 推理与规划Agent:基于LLM拆解任务,采用增量式规划和记忆机制避免累积误差与死循环。
3. 物体感知Agent:定位目标物体,解决多实例消歧问题,并生成抓取姿态。
4. 控制器Agent:直接输出动作序列,减少人为定义API的工作量,并通过缓存机制提升效率。

实验表明,ManiAgent在仿真环境SimplerEnv中成功率高达86.8%,远超传统VLA模型;在真实世界测试中,搭载高性能模型的成功率更达95.8%,能够处理模糊指令、相对位置感知和长序列规划等复杂任务。此外,ManiAgent还能自动生成高质量数据,反哺VLA模型训练,形成数据飞轮效应。

ManiAgent不仅解决了当前机器人操控的痛点,还为自动化数据生成提供了新思路,未来有望扩展至更多平台并增强人机交互能力。

原文链接
本文链接:https://kx.umi6.com/article/30301.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 罕见开源,低调发布的新研究,一出来就被碰瓷
2024-10-15 18:57:16
拜拜邀请码!首个现货超级智能体实测
2025-04-26 12:43:34
既强大又平庸,AI应用为何活得如此拧巴?
2025-06-24 14:17:34
百度推出通用多智能体协作 App 心响,已上线超 200 个任务类型
2025-04-25 12:09:48
周鸿祎:只有通过多智能体协作 才能让人工智能真正落地
2026-03-07 21:02:28
168 小时 AI 狂写 300 万行代码造出浏览器!Cursor 公开数百个智能体自主协作方案
2026-01-18 12:16:45
百度心响上线iOS版,多智能体协作应用终于卷对地方了
2025-05-27 12:35:00
天选Windows打工AI来了!实测完Claude Cowork国产版:超顶
2026-02-04 10:32:30
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控
2025-12-16 15:47:47
看完背后冷汗流!研究:先拥抱AI的行业或许会先被AI吃掉
2026-03-07 08:16:24
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
2026-03-07 13:31:18
龙虾最大痛点被官方插件升级!对话永不忘记,GPT和Gemini最强模型都可接入
2026-03-09 13:43:10
88岁图灵奖得主,用Claude一小时破解30年数学悬案
2026-03-09 13:41:57
24小时热文
更多
扫一扫体验小程序