GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

2025-04-23 11:52:51

AI思维矩阵

发布在

科普

阅读：928

标题：GPT-4o能拼好乐高吗？首个多步空间推理评测基准：闭源模型领跑

上海AI Lab投稿 | 量子位公众号 QbitAI

GPT-4o会画吉卜力、会「自拍」，但能拼好乐高吗？多模态大语言模型（MLLMs）是否真正具备空间结构的理解与推理能力？现有模型在多步空间推理任务中的表现如何？

上海人工智能实验室联合同济大学与清华大学推出LEGO-Puzzles，首个基于乐高拼搭的多步空间推理评估基准。LEGO-Puzzles利用乐高的规则性和可控性，构建了1100+任务样本，涵盖视觉问答（VQA）和图像生成两类任务，涉及空间理解、单步推理和多步推理三大领域。

评估显示，闭源模型显著优于开源模型。GPT-4o以57.7%的平均准确率领先，而最佳开源模型Qwen2.5-VL-72B仅46.6%。在多步推理任务中，开源模型表现极不稳定，甚至出现系统性失效。对比人类，GPT-4o在子集任务中仅达59.1%，远低于人类的93.6%。

此外，图像生成测试显示，Gemini-2.0-Flash在结构保真度和指令执行力上表现最佳，而GPT-4o则倾向于基于语义重构场景，细节还原不足。

进一步的Next-k-Step实验发现，随着推理链条增长，模型表现显著下降，GPT-4o在k=4和k=5时几乎失效。这表明当前MLLMs在处理多步骤空间推理时存在明显“推理衰减”问题。

LEGO-Puzzles现已集成至VLMEvalKit，支持快速评测与能力短板定位。相关论文与代码已开源。

原文链接

本文链接：https://kx.umi6.com/article/17615.html

转载请注明文章出处

LEGO-Puzzles

多模态大模型

空间推理

分享至

打开微信扫一扫

内容投诉

生成图片

AI思维矩阵

722 文章

795936 浏览

24小时热文