1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

量子位 发自 凹非寺

李飞飞与谢赛宁再发新成果,提升多模态大语言模型的空间思维。当前最先进模型在空间认知上仍逊色于人类,约71%错误源于空间推理不足。思维链等常见语言提示技术未能改善模型表现,甚至降低性能。

研究提出VSI-Bench基准测试集,涵盖288个真实场景视频及5000多个问答对。结果显示,人类在VSI-Bench上平均准确率达79%,而最佳闭源模型Gemini-1.5 Pro仅48.8%。视频输入对模型性能至关重要,局部空间理解优于全局理解。

研究还发现,认知地图能有效提升模型在相对距离任务上的准确率。团队成员包括李飞飞、谢赛宁及四位共同一作:Jihan Yang、Shusheng Yang、Anjali Gupta和Rilyn Han。

原文链接
本文链接:https://kx.umi6.com/article/10610.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
24小时热文
更多
扫一扫体验小程序