
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月28日,Meta公司联合发布Multi-SpatialMLLM模型,旨在突破单帧图像分析的局限,提升AI的空间理解能力。该模型整合深度感知、视觉对应和动态感知三大组件,弥补现有模型在复杂空间推理上的不足,例如难以区分左右。为解决这一问题,Meta与香港中文大学合作推出了MultiSPA数据集,包含超过2700万个多样化3D和4D场景样本,并借助GPT-4o生成任务模板。研究设计了深度感知、相机移动感知等多个训练任务,使模型在多帧空间推理上表现更佳。在MultiSPA基准测试中,Multi-SpatialMLLM相比基础模型平均提升了36%,定性任务准确率达80%-90%,并在BLINK基准测试中接近90%的准确率,超越多个专有系统。此外,模型在视觉问答测试中保持原有性能,展现了较强的通用能力。
原文链接
加载更多

暂无内容