1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

上海AI Lab投稿 | 量子位公众号 QbitAI

GPT-4o会画吉卜力、会「自拍」,但能拼好乐高吗?多模态大语言模型(MLLMs)是否真正具备空间结构的理解与推理能力?现有模型在多步空间推理任务中的表现如何?

上海人工智能实验室联合同济大学与清华大学推出LEGO-Puzzles,首个基于乐高拼搭的多步空间推理评估基准。LEGO-Puzzles利用乐高的规则性和可控性,构建了1100+任务样本,涵盖视觉问答(VQA)和图像生成两类任务,涉及空间理解、单步推理和多步推理三大领域。

评估显示,闭源模型显著优于开源模型。GPT-4o以57.7%的平均准确率领先,而最佳开源模型Qwen2.5-VL-72B仅46.6%。在多步推理任务中,开源模型表现极不稳定,甚至出现系统性失效。对比人类,GPT-4o在子集任务中仅达59.1%,远低于人类的93.6%。

此外,图像生成测试显示,Gemini-2.0-Flash在结构保真度和指令执行力上表现最佳,而GPT-4o则倾向于基于语义重构场景,细节还原不足。

进一步的Next-k-Step实验发现,随着推理链条增长,模型表现显著下降,GPT-4o在k=4和k=5时几乎失效。这表明当前MLLMs在处理多步骤空间推理时存在明显“推理衰减”问题。

LEGO-Puzzles现已集成至VLMEvalKit,支持快速评测与能力短板定位。相关论文与代码已开源。

原文链接
本文链接:https://kx.umi6.com/article/17615.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
2025十大AI技术趋势:具身智能、世界模型都有望迎来ChatGPT时刻
2025-01-09 11:54:47
阶跃星辰走「窄门」
2025-06-12 18:36:57
GPT-4.5 创造力比 GPT-4o 弱,浙大上海 AI Lab 发布全球首个面向真实场景的多模态创造力评测基准
2025-04-04 13:13:45
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
精准锁定「硬骨头」:难样本筛选破局SFT依赖,GRPO-only斩获感知推理双最优
2025-11-28 12:26:14
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
李飞飞谢赛宁新作「空间推理」:多模态大模型性能突破关键所在
2024-12-23 12:52:12
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
奥运攻关技术创新联合体在北京成立,将建全球最长智能跑道、首个国人运动人体专业多模态大模型
2025-05-29 19:40:55
超越Gemini3、GPT5.1,阿里千问登顶空间推理全球冠军
2025-11-26 15:49:46
阶跃星辰首次开源Step系列多模态大模型
2025-02-18 10:17:17
24小时热文
更多
扫一扫体验小程序