1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在

量子位 发自 凹非寺

李飞飞与谢赛宁再发新成果,提升多模态大语言模型的空间思维。当前最先进模型在空间认知上仍逊色于人类,约71%错误源于空间推理不足。思维链等常见语言提示技术未能改善模型表现,甚至降低性能。

研究提出VSI-Bench基准测试集,涵盖288个真实场景视频及5000多个问答对。结果显示,人类在VSI-Bench上平均准确率达79%,而最佳闭源模型Gemini-1.5 Pro仅48.8%。视频输入对模型性能至关重要,局部空间理解优于全局理解。

研究还发现,认知地图能有效提升模型在相对距离任务上的准确率。团队成员包括李飞飞、谢赛宁及四位共同一作:Jihan Yang、Shusheng Yang、Anjali Gupta和Rilyn Han。

原文链接
本文链接:https://kx.umi6.com/article/10610.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
事关下一代大模型!斯坦福顶尖1%科学家许主洪加盟阿里通义
2025-09-30 12:26:16
格灵深瞳:大模型是核心技术发展方向 何时扭亏成投资者关注话题|直击股东会
2024-08-21 10:32:00
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
2025-06-21 15:10:12
独家对话Soul App CTO:看好多模态端到端大模型落地社交,新能力预计年底上线
2024-10-19 11:17:30
上海人工智能实验室开源多模态大模型书生·万象3.0
2025-04-17 12:40:23
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
SuperCLUE多模态视觉评测榜:文心4.5 Turbo总分并列国内第一
2025-08-28 21:28:42
当虹科技上半年亏损收窄 研发投入下降
2025-08-23 08:59:00
商汤绝影行业首发原生多模态大模型车端部署:80 亿参数、每秒 40 Tokens
2024-07-19 13:35:17
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
阶跃星辰多模态大模型为OPPO新机提供技术支持
2025-04-22 16:25:15
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
24小时热文
更多
扫一扫体验小程序