
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:UCLA与谷歌联手打造AI新突破:长时记忆+3D空间理解超越基线16.5%
正文:
想象一下,在一个陌生的房子里寻找适合的礼物盒包装泰迪熊,这需要记住每个房间的物品特征、位置关系,并根据反馈调整行动。这一过程依赖于人类强大的空间-时间长时记忆。
加州大学洛杉矶分校(UCLA)与谷歌研究院的研究...
原文链接
5月28日,Meta公司联合发布Multi-SpatialMLLM模型,旨在突破单帧图像分析的局限,提升AI的空间理解能力。该模型整合深度感知、视觉对应和动态感知三大组件,弥补现有模型在复杂空间推理上的不足,例如难以区分左右。为解决这一问题,Meta与香港中文大学合作推出了MultiSPA数据集,包含超过2700万个多样化3D和4D场景样本,并借助GPT-4o生成任务模板。研究设计了深度感知、相机移动感知等多个训练任务,使模型在多帧空间推理上表现更佳。在MultiSPA基准测试中,Multi-SpatialMLLM相比基础模型平均提升了36%,定性任务准确率达80%-90%,并在BLINK基准测试中接近90%的准确率,超越多个专有系统。此外,模型在视觉问答测试中保持原有性能,展现了较强的通用能力。
原文链接
具身空间数据技术的路线之争:合成重建 vs 全端生成
具身智能的发展离不开高质量数据。然而,现实数据采集成本高昂,促使合成数据技术的重要性凸显。当前,具身合成数据领域存在两大技术路线争议:“视频合成+3D重建”或“端到端3D生成”。
自动驾驶的成功经验表明,前者的模态转换链路过长易导致误差累...
原文链接
标题:1段视频=亿万虚拟场景!群核开源空间理解多模态模型,真实世界秒变机器人训练场
GTC2025全球大会上,群核科技宣布开源空间理解模型SpatialLM。这是一个基于大语言模型的3D场景语义生成框架,突破了传统大语言模型对物理世界几何与空间关系的理解局限,赋予机器类似人类的空间认知和解析能力...
原文链接
加载更多

暂无内容