
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
斯坦福大学教授李飞飞和纽约大学助理教授谢赛宁发布新研究,评估多模态大模型的空间智能能力。研究团队创建了VSI-Bench,包含超5000个问答对,测试模型在居住、办公及工业场景中的视觉空间智能。结果显示,开源模型如LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B表现接近人类,而Gemini-1.5 Pro表现最佳。研究指出,生成认知地图能提升模型空间推理准确性10个百分点。李飞飞预测,2025年空间智能领域将取得重大突破。该研究强调空间智能对AI理解物理世界的重要性,有助于推动AI眼镜等实际应用。
原文链接
标题:李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
量子位 发自 凹非寺
李飞飞与谢赛宁再发新成果,提升多模态大语言模型的空间思维。当前最先进模型在空间认知上仍逊色于人类,约71%错误源于空间推理不足。思维链等常见语言提示技术未能改善模型表现,甚至降低性能。
研究提出VSI-Bench基准测试集,涵盖288个真实场景视频及5000多个问答对。结果显示,人类在VSI-Bench上平均准确率达79%,而最佳闭源模型Gemini-1.5 Pro仅48.8%。视频输入对模型性能至关重要,局部空间理解优于全局理解。
研究还发现,认知地图能有效提升模型在相对距离任务上的准确率。团队成员包括李飞飞、谢赛宁及四位共同一作:Jihan Yang、Shusheng Yang、Anjali Gupta和Rilyn Han。
原文链接
加载更多

暂无内容