让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

2025-06-04 17:30:05

Oasis

发布在

科普

阅读：13

标题：UCLA与谷歌联手打造AI新突破：长时记忆+3D空间理解超越基线16.5%

正文：

想象一下，在一个陌生的房子里寻找适合的礼物盒包装泰迪熊，这需要记住每个房间的物品特征、位置关系，并根据反馈调整行动。这一过程依赖于人类强大的空间-时间长时记忆。

加州大学洛杉矶分校（UCLA）与谷歌研究院的研究团队带来最新进展：3DLLM-MEM模型和3DMEM-BENCH基准，使AI首次具备在复杂3D环境中构建、维护和利用长时记忆的能力。

现有大语言模型在文本理解中表现优秀，但在动态3D环境中面临挑战，主要问题包括长时记忆断层、空间表征缺失及时空动态管理不足。这些问题阻碍了AI形成类似人类的认知地图并灵活调用记忆。

为解决这些问题，研究团队开发了3DMEM-BENCH基准，包含26,000+轨迹和1,860个具身任务，覆盖182个3D场景。该基准提供了大规模、多样化的评估，涵盖具身任务、时空问答及场景描述等多个维度，并设有难度分级。

同时，团队提出了3DLLM-MEM模型，采用双记忆架构：工作记忆负责短期动态更新，情景记忆则以密集3D表征存储历史信息。通过记忆融合模块和动态更新机制，模型实现了高效的任务执行与记忆管理。

实验结果显示，3DLLM-MEM在具身任务成功率、时空推理能力和记忆效率方面均显著优于现有方法，特别是在“野外困难任务”中成功率达到27.8%，整体成功率比最强基线高出16.5%。

尽管取得重要进展，研究团队仍指出模型需进一步整合底层导航与控制功能。论文链接和项目主页已公开供参考。

原文链接

本文链接：https://kx.umi6.com/article/19712.html

转载请注明文章出处

3D空间理解

AI认知

长时记忆

分享至

打开微信扫一扫

内容投诉

生成图片

Oasis

418 文章

76850 浏览

24小时热文