斯坦福大学教授李飞飞和纽约大学助理教授谢赛宁发布新研究,评估多模态大模型的空间智能能力。研究团队创建了VSI-Bench,包含超5000个问答对,测试模型在居住、办公及工业场景中的视觉空间智能。结果显示,开源模型如LLaVA-NeXT-Video-72B和LLaVA-OneVision-72B表现接近人类,而Gemini-1.5 Pro表现最佳。研究指出,生成认知地图能提升模型空间推理准确性10个百分点。李飞飞预测,2025年空间智能领域将取得重大突破。该研究强调空间智能对AI理解物理世界的重要性,有助于推动AI眼镜等实际应用。
原文链接
本文链接:https://kx.umi6.com/article/10624.html
转载请注明文章出处
相关推荐
.png)
换一换
杨植麟和闫俊杰首次「撞车」
2025-06-23 08:20:52
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
阿里、智谱等扎堆发布大模型 编程、金融等方向成焦点
2025-07-30 20:55:52
中信建投武超则:大模型的迭代永无止境 坚定看好接下来AI应用的发展表现
2025-07-16 18:10:08
大模型六小虎,创业小败局?
2025-06-23 13:31:23
GPT-5 没有惊喜,但信号拉满
2025-08-11 13:00:45
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
对话清华大学张亚勤:智能体是大模型时代的APP
2025-06-23 08:29:04
独家|阶跃星辰正进行新一轮融资 金额超5亿美元
2025-07-25 22:31:59
美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出
2025-09-01 11:16:10
拿下3D生成行业新标杆!昆仑万维Matrix-3D新模型鲨疯了,一张图建模游戏场景
2025-08-12 15:19:25
李飞飞最新访谈:没有空间智能,AGI就不完整
2025-07-03 15:26:49
特想聊聊快手这次的变化
2025-06-25 08:43:51
610 文章
203465 浏览
24小时热文
更多

-
2025-09-10 11:37:23
-
2025-09-10 11:36:16
-
2025-09-10 11:35:05