标题:李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
量子位 发自 凹非寺
李飞飞与谢赛宁再发新成果,提升多模态大语言模型的空间思维。当前最先进模型在空间认知上仍逊色于人类,约71%错误源于空间推理不足。思维链等常见语言提示技术未能改善模型表现,甚至降低性能。
研究提出VSI-Bench基准测试集,涵盖288个真实场景视频及5000多个问答对。结果显示,人类在VSI-Bench上平均准确率达79%,而最佳闭源模型Gemini-1.5 Pro仅48.8%。视频输入对模型性能至关重要,局部空间理解优于全局理解。
研究还发现,认知地图能有效提升模型在相对距离任务上的准确率。团队成员包括李飞飞、谢赛宁及四位共同一作:Jihan Yang、Shusheng Yang、Anjali Gupta和Rilyn Han。
原文链接
本文链接:https://kx.umi6.com/article/10610.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰走“窄门”
2025-06-12 22:41:52
阶跃星辰多模态大模型为OPPO新机提供技术支持
2025-04-22 16:25:15
王兴兴透露:宇树机器人已能完成绝大部分工作动作
2025-11-16 15:42:36
行业首个:vivo 蓝心 3B 端侧多模态大模型发布,10B 以内总榜第一
2025-10-11 10:05:00
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
2026-03-18 15:28:55
超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军
2025-11-26 15:49:46
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
2026-03-05 19:45:14
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
阶跃星辰发布“万亿”和“多模态”大模型 与上海电影“大闹天宫”|2024WAIC
2024-07-06 21:38:20
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
692 文章
549339 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38