Meta 发布 Multi-SpatialMLLM：多模态 AI 突破空间理解瓶颈

2025-05-29 14:33:07

智慧轨迹

发布在

快讯

阅读：3462

5月28日，Meta公司联合发布Multi-SpatialMLLM模型，旨在突破单帧图像分析的局限，提升AI的空间理解能力。该模型整合深度感知、视觉对应和动态感知三大组件，弥补现有模型在复杂空间推理上的不足，例如难以区分左右。为解决这一问题，Meta与香港中文大学合作推出了MultiSPA数据集，包含超过2700万个多样化3D和4D场景样本，并借助GPT-4o生成任务模板。研究设计了深度感知、相机移动感知等多个训练任务，使模型在多帧空间推理上表现更佳。在MultiSPA基准测试中，Multi-SpatialMLLM相比基础模型平均提升了36%，定性任务准确率达80%-90%，并在BLINK基准测试中接近90%的准确率，超越多个专有系统。此外，模型在视觉问答测试中保持原有性能，展现了较强的通用能力。

原文链接

本文链接：https://kx.umi6.com/article/19443.html

转载请注明文章出处

Multi-SpatialMLLM