机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
让机器人像人一样边看边理解,浙江大学与vivo人工智能实验室联合团队研发出全新框架——CogDDN。该框架在ACM MM 2025上发表,首次将心理学“双过程理论”应用于移动机器人的需求驱动导航任务(Demand-driven Navigation, DDN)。实验表明,CogDDN相比现有单视角SOTA方法成功率提升15%,性能媲美加入深度输入的InstructNav。
研究动机源于移动机器人在复杂场景中的局限性。传统导航方法依赖大量数据训练,仅能应对已知环境和明确指令,面对陌生场景或模糊需求时表现不佳。为解决这一问题,团队引入丹尼尔·卡尼曼的“双过程理论”,模拟人类快速直觉决策(系统1)和深度推理(系统2)结合的思维模式,赋予机器人灵活应对未知情境的能力。
CogDDN框架由三部分组成:3D机器人感知模块、需求匹配模块和双过程决策模块。3D感知模块采用UniMODE技术,通过单目图像精准估算物体三维位置;需求匹配模块利用监督微调(SFT)优化大型语言模型(LLM),确保需求与物体特性精准对齐;双过程决策模块则整合启发式过程(快速直觉)和分析过程(深度推理),实现高效导航与持续学习。
启发式过程分为“探索(Explore)”和“利用(Exploit)”两个阶段。探索阶段通过生成动作扫描环境,寻找潜在目标;利用阶段则借助积累的经验精准执行导航任务。分析过程则类似“反思大脑”,当遇到障碍时,系统基于视觉语言模型(VLM)分析错误并优化策略,形成可迁移的知识库。
实验在AI2-THOR仿真器上进行,CogDDN在400个场景中表现出色,导航成功率(NSR)、加权路径长度的成功率(SPL)等指标均优于现有方法。消融实验进一步验证了各模块的重要性,尤其是微调和反思机制对系统性能的显著提升。
总结而言,CogDDN赋予机器人“思考的大脑”,使其在复杂环境中灵活应对需求驱动任务。其双过程决策机制结合持续学习能力,为智能机器人技术的发展提供了重要突破。
参考链接:
[1] 论文链接:https://arxiv.org/abs/2507.11334
[2] 项目主页:https://yuehaohuang.github.io/CogDDN/
.png)

-
2025-07-24 03:00:03
-
2025-07-24 00:58:43
-
2025-07-23 23:58:33