标题:GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
上海AI Lab投稿 | 量子位公众号 QbitAI
GPT-4o会画吉卜力、会「自拍」,但能拼好乐高吗?多模态大语言模型(MLLMs)是否真正具备空间结构的理解与推理能力?现有模型在多步空间推理任务中的表现如何?
上海人工智能实验室联合同济大学与清华大学推出LEGO-Puzzles,首个基于乐高拼搭的多步空间推理评估基准。LEGO-Puzzles利用乐高的规则性和可控性,构建了1100+任务样本,涵盖视觉问答(VQA)和图像生成两类任务,涉及空间理解、单步推理和多步推理三大领域。
评估显示,闭源模型显著优于开源模型。GPT-4o以57.7%的平均准确率领先,而最佳开源模型Qwen2.5-VL-72B仅46.6%。在多步推理任务中,开源模型表现极不稳定,甚至出现系统性失效。对比人类,GPT-4o在子集任务中仅达59.1%,远低于人类的93.6%。
此外,图像生成测试显示,Gemini-2.0-Flash在结构保真度和指令执行力上表现最佳,而GPT-4o则倾向于基于语义重构场景,细节还原不足。
进一步的Next-k-Step实验发现,随着推理链条增长,模型表现显著下降,GPT-4o在k=4和k=5时几乎失效。这表明当前MLLMs在处理多步骤空间推理时存在明显“推理衰减”问题。
LEGO-Puzzles现已集成至VLMEvalKit,支持快速评测与能力短板定位。相关论文与代码已开源。
原文链接
本文链接:https://kx.umi6.com/article/17615.html
转载请注明文章出处
相关推荐
.png)
换一换
腾讯微信正式发布多模态大模型 POINTS 1.5
2024-12-16 09:34:39
阶跃星辰两款开源模型均位列 Hugging Face榜单Top 5
2025-02-25 12:57:29
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
大模型如何避免“狭义AI陷阱”?
2024-07-15 21:50:24
全球首个多模态世界模型Emu3来了!智源王仲远:为多模态大模型训练范式指明新方向
2024-10-22 19:16:13
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
2024-06-12 13:18:49
商汤绝影行业首发原生多模态大模型车端部署:80 亿参数、每秒 40 Tokens
2024-07-19 13:35:17
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
小红书开源多模态大模型
2025-08-07 14:53:39
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
476 文章
174778 浏览
24小时热文
更多

-
2025-09-10 01:24:36
-
2025-09-10 00:24:21
-
2025-09-09 23:22:46