机器人需求驱动导航新SOTA，成功率提升15%！浙大&vivo联手打造

2025-07-23 15:54:28

超频思维站

发布在

科普

阅读：25

机器人需求驱动导航新SOTA，成功率提升15%！浙大&vivo联手打造

让机器人像人一样边看边理解，浙江大学与vivo人工智能实验室联合团队研发出全新框架——CogDDN。该框架在ACM MM 2025上发表，首次将心理学“双过程理论”应用于移动机器人的需求驱动导航任务（Demand-driven Navigation, DDN）。实验表明，CogDDN相比现有单视角SOTA方法成功率提升15%，性能媲美加入深度输入的InstructNav。

研究动机源于移动机器人在复杂场景中的局限性。传统导航方法依赖大量数据训练，仅能应对已知环境和明确指令，面对陌生场景或模糊需求时表现不佳。为解决这一问题，团队引入丹尼尔·卡尼曼的“双过程理论”，模拟人类快速直觉决策（系统1）和深度推理（系统2）结合的思维模式，赋予机器人灵活应对未知情境的能力。

CogDDN框架由三部分组成：3D机器人感知模块、需求匹配模块和双过程决策模块。3D感知模块采用UniMODE技术，通过单目图像精准估算物体三维位置；需求匹配模块利用监督微调（SFT）优化大型语言模型（LLM），确保需求与物体特性精准对齐；双过程决策模块则整合启发式过程（快速直觉）和分析过程（深度推理），实现高效导航与持续学习。

启发式过程分为“探索（Explore）”和“利用（Exploit）”两个阶段。探索阶段通过生成动作扫描环境，寻找潜在目标；利用阶段则借助积累的经验精准执行导航任务。分析过程则类似“反思大脑”，当遇到障碍时，系统基于视觉语言模型（VLM）分析错误并优化策略，形成可迁移的知识库。

实验在AI2-THOR仿真器上进行，CogDDN在400个场景中表现出色，导航成功率（NSR）、加权路径长度的成功率（SPL）等指标均优于现有方法。消融实验进一步验证了各模块的重要性，尤其是微调和反思机制对系统性能的显著提升。

总结而言，CogDDN赋予机器人“思考的大脑”，使其在复杂环境中灵活应对需求驱动任务。其双过程决策机制结合持续学习能力，为智能机器人技术的发展提供了重要突破。

参考链接：
[1] 论文链接：https://arxiv.org/abs/2507.11334
[2] 项目主页：https://yuehaohuang.github.io/CogDDN/

原文链接

本文链接：https://kx.umi6.com/article/22222.html

转载请注明文章出处

CogDDN