1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑

上海AI Lab投稿 | 量子位公众号 QbitAI

GPT-4o会画吉卜力、会「自拍」,但能拼好乐高吗?多模态大语言模型(MLLMs)是否真正具备空间结构的理解与推理能力?现有模型在多步空间推理任务中的表现如何?

上海人工智能实验室联合同济大学与清华大学推出LEGO-Puzzles,首个基于乐高拼搭的多步空间推理评估基准。LEGO-Puzzles利用乐高的规则性和可控性,构建了1100+任务样本,涵盖视觉问答(VQA)和图像生成两类任务,涉及空间理解、单步推理和多步推理三大领域。

评估显示,闭源模型显著优于开源模型。GPT-4o以57.7%的平均准确率领先,而最佳开源模型Qwen2.5-VL-72B仅46.6%。在多步推理任务中,开源模型表现极不稳定,甚至出现系统性失效。对比人类,GPT-4o在子集任务中仅达59.1%,远低于人类的93.6%。

此外,图像生成测试显示,Gemini-2.0-Flash在结构保真度和指令执行力上表现最佳,而GPT-4o则倾向于基于语义重构场景,细节还原不足。

进一步的Next-k-Step实验发现,随着推理链条增长,模型表现显著下降,GPT-4o在k=4和k=5时几乎失效。这表明当前MLLMs在处理多步骤空间推理时存在明显“推理衰减”问题。

LEGO-Puzzles现已集成至VLMEvalKit,支持快速评测与能力短板定位。相关论文与代码已开源。

原文链接
本文链接:https://kx.umi6.com/article/17615.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
挑战高考数学完胜!商汤日日新多模态大模型权威评测第一
2024-12-19 20:05:26
阶跃星辰首次开源Step系列多模态大模型
2025-02-18 10:17:17
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
GPT-4.5创造力比GPT-4o弱!浙大上海AI Lab发布新基准,寻找多模态创造力天花板
2025-04-04 13:10:23
字节迭代多模态大模型 媲美谷歌新品 智能体能力更强、推理成本更低
2025-05-13 15:57:01
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
上海WAIC大会现场“大闹天宫”:模型够猛,产品够酷,公司够强
2024-07-04 23:04:31
当虹科技上半年亏损收窄 研发投入下降
2025-08-23 08:59:00
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
网易云音乐创始人再创业、全灵完成千万美元 Pre-A 轮融资,称将发布全球首个 AI 游戏生成平台
2024-11-18 20:29:26
24小时热文
更多
扫一扫体验小程序