1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

5月28日,Meta公司联合发布Multi-SpatialMLLM模型,旨在突破单帧图像分析的局限,提升AI的空间理解能力。该模型整合深度感知、视觉对应和动态感知三大组件,弥补现有模型在复杂空间推理上的不足,例如难以区分左右。为解决这一问题,Meta与香港中文大学合作推出了MultiSPA数据集,包含超过2700万个多样化3D和4D场景样本,并借助GPT-4o生成任务模板。研究设计了深度感知、相机移动感知等多个训练任务,使模型在多帧空间推理上表现更佳。在MultiSPA基准测试中,Multi-SpatialMLLM相比基础模型平均提升了36%,定性任务准确率达80%-90%,并在BLINK基准测试中接近90%的准确率,超越多个专有系统。此外,模型在视觉问答测试中保持原有性能,展现了较强的通用能力。

原文链接
本文链接:https://kx.umi6.com/article/19443.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
2025-06-06 22:39:37
字节把GPT-4o级图像生成能力开源了!
2025-05-24 16:24:01
全球最大开源视频模型,现在也Created in China了,阶跃出品
2025-02-19 14:50:40
摸DeepSeek过河也得自身硬! 想开后的文小言,真香!
2025-03-31 17:40:22
一场对话,我们细扒了下文心大模型背后的技术
2025-05-22 23:09:28
美团新独立APP,点不了菜只能点AI
2025-11-03 12:17:52
7B模型搞定AI视频通话,阿里最新开源炸场,看听说写全模态打通,开发者企业免费商用
2025-03-27 13:46:24
GPT-5来了!人人都能免费用,最强大模型只需最傻瓜式使用
2025-08-08 04:01:37
刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理
2025-04-10 22:10:27
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
匆匆发布的Llama4
2025-04-06 16:09:03
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
阿里通义千问 2.5-Omni-3B AI 全模态登场:7B 版 90% 性能,显存占用减少 53%
2025-05-01 11:20:52
24小时热文
更多
扫一扫体验小程序