Multi-SpatialMLLM - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Meta 发布 Multi-SpatialMLLM：多模态 AI 突破空间理解瓶颈

5月28日，Meta公司联合发布Multi-SpatialMLLM模型，旨在突破单帧图像分析的局限，提升AI的空间理解能力。该模型整合深度感知、视觉对应和动态感知三大组件，弥补现有模型在复杂空间推理上的不足，例如难以区分左右。为解决这一问题，Meta与香港中文大学合作推出了MultiSPA数据集，包含超过2700万个多样化3D和4D场景样本，并借助GPT-4o生成任务模板。研究设计了深度感知、相机移动感知等多个训练任务，使模型在多帧空间推理上表现更佳。在MultiSPA基准测试中，Multi-SpatialMLLM相比基础模型平均提升了36%，定性任务准确率达80%-90%，并在BLINK基准测试中接近90%的准确率，超越多个专有系统。此外，模型在视觉问答测试中保持原有性能，展现了较强的通用能力。

原文链接