斯坦福大学教授李飞飞和纽约大学助理教授谢赛宁发布新研究,评估多模态大模型的空间智能能力。研究团队创建了VSI-Bench,包含超5000个问答对,测试模型在居住、办公及工业场景中的视觉空间智能。结果显示,开源模型如LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B表现接近人类,而Gemini-1.5 Pro表现最佳。研究指出,生成认知地图能提升模型空间推理准确性10个百分点。李飞飞预测,2025年空间智能领域将取得重大突破。该研究强调空间智能对AI理解物理世界的重要性,有助于推动AI眼镜等实际应用。
原文链接
本文链接:https://kx.umi6.com/article/10624.html
转载请注明文章出处
相关推荐
.png)
换一换
马斯克Grok-4碾压所有大模型!“比所有博士聪明”,AIME25拿满分
2025-07-10 16:23:20
对话清华大学张亚勤:智能体是大模型时代的APP
2025-06-23 08:29:04
DeepSeek-V3 & R1 合体:快手开源 "Auto Think" 大模型,可根据问题自动调节思考深度
2025-06-04 17:33:24
544 文章
74132 浏览
24小时热文
更多

-
2025-07-20 13:03:48
-
2025-07-20 12:02:31
-
2025-07-20 10:03:13