1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造

让机器人像人一样边看边理解,浙江大学与vivo人工智能实验室联合团队研发出全新框架——CogDDN。该框架在ACM MM 2025上发表,首次将心理学“双过程理论”应用于移动机器人的需求驱动导航任务(Demand-driven Navigation, DDN)。实验表明,CogDDN相比现有单视角SOTA方法成功率提升15%,性能媲美加入深度输入的InstructNav。

研究动机源于移动机器人在复杂场景中的局限性。传统导航方法依赖大量数据训练,仅能应对已知环境和明确指令,面对陌生场景或模糊需求时表现不佳。为解决这一问题,团队引入丹尼尔·卡尼曼的“双过程理论”,模拟人类快速直觉决策(系统1)和深度推理(系统2)结合的思维模式,赋予机器人灵活应对未知情境的能力。

CogDDN框架由三部分组成:3D机器人感知模块、需求匹配模块和双过程决策模块。3D感知模块采用UniMODE技术,通过单目图像精准估算物体三维位置;需求匹配模块利用监督微调(SFT)优化大型语言模型(LLM),确保需求与物体特性精准对齐;双过程决策模块则整合启发式过程(快速直觉)和分析过程(深度推理),实现高效导航与持续学习。

启发式过程分为“探索(Explore)”和“利用(Exploit)”两个阶段。探索阶段通过生成动作扫描环境,寻找潜在目标;利用阶段则借助积累的经验精准执行导航任务。分析过程则类似“反思大脑”,当遇到障碍时,系统基于视觉语言模型(VLM)分析错误并优化策略,形成可迁移的知识库。

实验在AI2-THOR仿真器上进行,CogDDN在400个场景中表现出色,导航成功率(NSR)、加权路径长度的成功率(SPL)等指标均优于现有方法。消融实验进一步验证了各模块的重要性,尤其是微调和反思机制对系统性能的显著提升。

总结而言,CogDDN赋予机器人“思考的大脑”,使其在复杂环境中灵活应对需求驱动任务。其双过程决策机制结合持续学习能力,为智能机器人技术的发展提供了重要突破。

参考链接:
[1] 论文链接:https://arxiv.org/abs/2507.11334
[2] 项目主页:https://yuehaohuang.github.io/CogDDN/

原文链接
本文链接:https://kx.umi6.com/article/22222.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
机器人需求驱动导航新SOTA,成功率提升15%!浙大&vivo联手打造
2025-07-23 15:54:28
机器人高层指挥低层做,“坐标系转移接口”一次演示实现泛化学习 | ICML2025
2025-07-22 17:35:30
通义千问最新AI编程大模型Qwen3-Coder正式开源
2025-07-23 07:45:34
亚马逊收购可穿戴设备制造商Bee 继续加码AI领域
2025-07-23 06:44:21
从「全球销冠」到「Google首选」,XREAL创新驱动引领新一代智能终端
2025-07-23 14:50:48
广州:培育孵化一批智能体育、虚拟体育、数字体育等高新技术企业
2025-07-23 17:57:14
一场对抗OpenAI们的“危险游戏”,值不值得投资
2025-07-23 08:46:29
谷歌DeepMind在数学奥林匹克中达到金牌级别成绩
2025-07-22 14:36:07
3D生成补上物理短板!首个系统性标注物理3D数据集上线,还有一个端到端框架
2025-07-23 15:51:44
阿里云通义千问 Qwen3-Coder 宣布开源:480B 参数、原生支持 256K 上下文,可与 Claude Sonnet4 媲美
2025-07-23 08:44:56
奥尔特曼:AI已能破解大多数身份验证方式
2025-07-23 15:57:48
英伟达竞争者获得大型订单:韩国FuriosaAI将为LG供应AI芯片
2025-07-22 17:37:48
国家版权局:健全区块链、大数据、云计算、人工智能等新兴领域、新兴业态版权保护制度
2025-07-23 16:56:12
24小时热文
更多
扫一扫体验小程序