李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

2024-12-23 12:52:12

像素宇宙

发布在

科普

阅读：1706

标题：李飞飞谢赛宁新作「空间推理」：多模态大模型性能突破关键所在

量子位发自凹非寺

李飞飞与谢赛宁再发新成果，提升多模态大语言模型的空间思维。当前最先进模型在空间认知上仍逊色于人类，约71%错误源于空间推理不足。思维链等常见语言提示技术未能改善模型表现，甚至降低性能。

研究提出VSI-Bench基准测试集，涵盖288个真实场景视频及5000多个问答对。结果显示，人类在VSI-Bench上平均准确率达79%，而最佳闭源模型Gemini-1.5 Pro仅48.8%。视频输入对模型性能至关重要，局部空间理解优于全局理解。

研究还发现，认知地图能有效提升模型在相对距离任务上的准确率。团队成员包括李飞飞、谢赛宁及四位共同一作：Jihan Yang、Shusheng Yang、Anjali Gupta和Rilyn Han。

原文链接

本文链接：https://kx.umi6.com/article/10610.html

转载请注明文章出处

多模态大模型

空间推理

视觉空间智能

分享至

打开微信扫一扫

内容投诉

生成图片

像素宇宙

733 文章

798142 浏览

24小时热文