标题:GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
上海AI Lab投稿 | 量子位公众号 QbitAI
GPT-4o会画吉卜力、会「自拍」,但能拼好乐高吗?多模态大语言模型(MLLMs)是否真正具备空间结构的理解与推理能力?现有模型在多步空间推理任务中的表现如何?
上海人工智能实验室联合同济大学与清华大学推出LEGO-Puzzles,首个基于乐高拼搭的多步空间推理评估基准。LEGO-Puzzles利用乐高的规则性和可控性,构建了1100+任务样本,涵盖视觉问答(VQA)和图像生成两类任务,涉及空间理解、单步推理和多步推理三大领域。
评估显示,闭源模型显著优于开源模型。GPT-4o以57.7%的平均准确率领先,而最佳开源模型Qwen2.5-VL-72B仅46.6%。在多步推理任务中,开源模型表现极不稳定,甚至出现系统性失效。对比人类,GPT-4o在子集任务中仅达59.1%,远低于人类的93.6%。
此外,图像生成测试显示,Gemini-2.0-Flash在结构保真度和指令执行力上表现最佳,而GPT-4o则倾向于基于语义重构场景,细节还原不足。
进一步的Next-k-Step实验发现,随着推理链条增长,模型表现显著下降,GPT-4o在k=4和k=5时几乎失效。这表明当前MLLMs在处理多步骤空间推理时存在明显“推理衰减”问题。
LEGO-Puzzles现已集成至VLMEvalKit,支持快速评测与能力短板定位。相关论文与代码已开源。
原文链接
本文链接:https://kx.umi6.com/article/17615.html
转载请注明文章出处
相关推荐
换一换
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
阶跃星辰发布“万亿”和“多模态”大模型 与上海电影“大闹天宫”|2024WAIC
2024-07-06 21:38:20
蚂蚁集宣布正式开源统一多模态大模型Ming-lite-omni
2025-05-29 12:28:01
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
拓元智慧完成近亿元人民币Pre-A轮融资
2024-12-31 17:46:35
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
2025-11-28 12:26:14
616 文章
411678 浏览
24小时热文
更多
-
2026-01-23 00:20:44 -
2026-01-22 23:18:34 -
2026-01-22 23:17:29