空间理解 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

让AI像人类一样认知真实世界！UCLA谷歌强强联手，长时记忆+3D空间理解超越基线16.5%

标题：UCLA与谷歌联手打造AI新突破：长时记忆+3D空间理解超越基线16.5% 正文：想象一下，在一个陌生的房子里寻找适合的礼物盒包装泰迪熊，这需要记住每个房间的物品特征、位置关系，并根据反馈调整行动。这一过程依赖于人类强大的空间-时间长时记忆。加州大学洛杉矶分校（UCLA）与谷歌研究院的研究...

原文链接

Oasis

06-04 17:30:05

3D空间理解

AI认知

长时记忆

分享至

打开微信扫一扫

内容投诉

生成图片

Meta 发布 Multi-SpatialMLLM：多模态 AI 突破空间理解瓶颈

5月28日，Meta公司联合发布Multi-SpatialMLLM模型，旨在突破单帧图像分析的局限，提升AI的空间理解能力。该模型整合深度感知、视觉对应和动态感知三大组件，弥补现有模型在复杂空间推理上的不足，例如难以区分左右。为解决这一问题，Meta与香港中文大学合作推出了MultiSPA数据集，包含超过2700万个多样化3D和4D场景样本，并借助GPT-4o生成任务模板。研究设计了深度感知、相机移动感知等多个训练任务，使模型在多帧空间推理上表现更佳。在MultiSPA基准测试中，Multi-SpatialMLLM相比基础模型平均提升了36%，定性任务准确率达80%-90%，并在BLINK基准测试中接近90%的准确率，超越多个专有系统。此外，模型在视觉问答测试中保持原有性能，展现了较强的通用能力。

原文链接

智慧轨迹

05-29 14:33:07

Multi-SpatialMLLM

多模态

空间理解

分享至

打开微信扫一扫

内容投诉

生成图片

具身空间数据技术的路线之争：合成重建VS全端生成

具身空间数据技术的路线之争：合成重建 vs 全端生成具身智能的发展离不开高质量数据。然而，现实数据采集成本高昂，促使合成数据技术的重要性凸显。当前，具身合成数据领域存在两大技术路线争议：“视频合成+3D重建”或“端到端3D生成”。自动驾驶的成功经验表明，前者的模态转换链路过长易导致误差累...

原文链接

AI奇点纪元

04-21 01:24:45

具身智能

数据生成

空间理解

分享至

打开微信扫一扫

内容投诉

生成图片

1段视频=亿万虚拟场景！群核开源空间理解多模态模型，真实世界秒变机器人训练场

标题：1段视频=亿万虚拟场景！群核开源空间理解多模态模型，真实世界秒变机器人训练场 GTC2025全球大会上，群核科技宣布开源空间理解模型SpatialLM。这是一个基于大语言模型的3D场景语义生成框架，突破了传统大语言模型对物理世界几何与空间关系的理解局限，赋予机器类似人类的空间认知和解析能力...

原文链接