1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

量子位 发自 凹非寺

李飞飞与谢赛宁再发新成果,提升多模态大语言模型的空间思维。当前最先进模型在空间认知上仍逊色于人类,约71%错误源于空间推理不足。思维链等常见语言提示技术未能改善模型表现,甚至降低性能。

研究提出VSI-Bench基准测试集,涵盖288个真实场景视频及5000多个问答对。结果显示,人类在VSI-Bench上平均准确率达79%,而最佳闭源模型Gemini-1.5 Pro仅48.8%。视频输入对模型性能至关重要,局部空间理解优于全局理解。

研究还发现,认知地图能有效提升模型在相对距离任务上的准确率。团队成员包括李飞飞、谢赛宁及四位共同一作:Jihan Yang、Shusheng Yang、Anjali Gupta和Rilyn Han。

原文链接
本文链接:https://kx.umi6.com/article/10610.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向
2024-10-22 19:16:13
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
2025-06-21 15:10:12
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
阶跃星辰走「窄门」
2025-06-12 18:36:57
港大字节提出多模态大模型新范式,模拟人类先感知后认知,精确定位图中物体
2024-05-27 16:15:00
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
阶跃星辰走“窄门”
2025-06-12 22:41:52
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
阶跃星辰发布“万亿”和“多模态”大模型 与上海电影“大闹天宫”|2024WAIC
2024-07-06 21:38:20
上海AI实验室开源通用多模态大模型书生·万象3.5
2025-09-03 20:52:29
小红书开源多模态大模型
2025-08-07 14:53:39
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
24小时热文
更多
扫一扫体验小程序