1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月28日,Meta公司联合发布Multi-SpatialMLLM模型,旨在突破单帧图像分析的局限,提升AI的空间理解能力。该模型整合深度感知、视觉对应和动态感知三大组件,弥补现有模型在复杂空间推理上的不足,例如难以区分左右。为解决这一问题,Meta与香港中文大学合作推出了MultiSPA数据集,包含超过2700万个多样化3D和4D场景样本,并借助GPT-4o生成任务模板。研究设计了深度感知、相机移动感知等多个训练任务,使模型在多帧空间推理上表现更佳。在MultiSPA基准测试中,Multi-SpatialMLLM相比基础模型平均提升了36%,定性任务准确率达80%-90%,并在BLINK基准测试中接近90%的准确率,超越多个专有系统。此外,模型在视觉问答测试中保持原有性能,展现了较强的通用能力。

原文链接
本文链接:https://kx.umi6.com/article/19443.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
文生视频模型为何迟迟没有“aha moment”?
2025-04-14 15:40:26
智源研究院发布“悟界”系列大模型,含全球首个原生多模态世界模型 Emu3
2025-06-06 12:30:15
张鹏×潘乱×张一甲,对谈实录
2025-07-10 14:22:23
商汤日日新 SenseNova V6 多模态融合大模型发布
2025-04-10 17:00:13
消息称百度今年下半年将发布新一代 AI 大模型文心 5.0,提升多模态能力
2025-02-12 13:31:41
OpenAI 重申今夏推出最强模型 GPT-5,具备完整多模态 AI 能力
2025-07-07 21:35:27
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通
2025-03-27 07:33:35
240元打造擅长数学的多模态版R1,基于DeepSeek核心思想,两阶段训练提升推理能力至工业级应用标准
2025-03-20 16:36:06
Gemini 2.0成P图神器 各种P图只需一句话的事儿
2024-12-16 23:50:15
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
2025-06-06 22:39:37
业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术
2025-03-30 11:28:03
24小时热文
更多
扫一扫体验小程序