标题:GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
上海AI Lab投稿 | 量子位公众号 QbitAI
GPT-4o会画吉卜力、会「自拍」,但能拼好乐高吗?多模态大语言模型(MLLMs)是否真正具备空间结构的理解与推理能力?现有模型在多步空间推理任务中的表现如何?
上海人工智能实验室联合同济大学与清华大学推出LEGO-Puzzles,首个基于乐高拼搭的多步空间推理评估基准。LEGO-Puzzles利用乐高的规则性和可控性,构建了1100+任务样本,涵盖视觉问答(VQA)和图像生成两类任务,涉及空间理解、单步推理和多步推理三大领域。
评估显示,闭源模型显著优于开源模型。GPT-4o以57.7%的平均准确率领先,而最佳开源模型Qwen2.5-VL-72B仅46.6%。在多步推理任务中,开源模型表现极不稳定,甚至出现系统性失效。对比人类,GPT-4o在子集任务中仅达59.1%,远低于人类的93.6%。
此外,图像生成测试显示,Gemini-2.0-Flash在结构保真度和指令执行力上表现最佳,而GPT-4o则倾向于基于语义重构场景,细节还原不足。
进一步的Next-k-Step实验发现,随着推理链条增长,模型表现显著下降,GPT-4o在k=4和k=5时几乎失效。这表明当前MLLMs在处理多步骤空间推理时存在明显“推理衰减”问题。
LEGO-Puzzles现已集成至VLMEvalKit,支持快速评测与能力短板定位。相关论文与代码已开源。
原文链接
本文链接:https://kx.umi6.com/article/17615.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰走“窄门”
2025-06-12 22:41:52
阶跃星辰发布“万亿”和“多模态”大模型 与上海电影“大闹天宫”|2024WAIC
2024-07-06 21:38:20
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
谷歌最强具身大脑发布!波士顿机器狗瞬间人模人样
2026-04-17 16:07:31
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
2026-03-05 19:45:14
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
事关下一代大模型!斯坦福顶尖1%科学家许主洪加盟阿里通义
2025-09-30 12:26:16
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
当虹科技上半年亏损收窄 研发投入下降
2025-08-23 08:59:00
智象未来完成新一轮融资,全力打造下一代原生全模态世界模型
2026-04-16 15:04:11
709 文章
638136 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41