1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25

清华大学团队受密室逃脱游戏启发,提出EscapeCraft——一个3D密室逃脱环境,用于评估多模态大模型(MLLMs)在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。

EscapeCraft是一个沉浸式互动环境,模型需通过自由探索寻找道具、解密码、逃出房间,每一步都涉及视觉、空间和逻辑推理。任务支持多种难度配置,线索位置可灵活调整,例如从箱子移到墙上,以测试模型对环境信息的处理能力。实验发现,GPT-4o在简单场景中表现良好,但当线索远离出口时,常重复错误路径导致失败。

研究还设计了多项创新指标,如“意图与结果一致性”和“道具获取率”,以全面评估模型的推理过程。结果显示,GPT-4o在高难度任务中仅26.5%的子目标是“真正理解后完成”,其余多为偶然成功。此外,Claude 3.5的错误中,61.1%源于推理问题,38.9%为视觉感知问题,表明“看到”并不等于“理解”。

评测涵盖GPT-4o、Gemini-1.5 Pro、Claude 3.5等模型。尽管GPT-4o成功率最高,但在复杂任务中仍频繁出错;国产模型Doubao 1.5 Pro在简单关卡中表现亮眼,交互成功率甚至超越GPT-4o。Gemini和Claude常因方向判断失误而“卡住”,多数模型存在“反复抓错”或“认错道具”等问题。

EscapeCraft不仅关注最终结果,更注重模型的探索和推理过程,为未来智能体研究提供了灵活的基础平台。

项目主页: https://thunlp-mt.github.io/EscapeCraft
GitHub地址: https://github.com/THUNLP-MT/EscapeCraft
论文原文: https://arxiv.org/abs/2503.10042v4

原文链接
本文链接:https://kx.umi6.com/article/21691.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
事关下一代大模型!斯坦福顶尖1%科学家许主洪加盟阿里通义
2025-09-30 12:26:16
大模型掌握人类空间思考能力!三阶段训练框架学会“边画边想”,5个基准平均提升18.4%
2025-06-21 15:10:12
「生数科技」完成数亿元Pre-A轮融资,百度投了 | 36氪首发
2024-06-06 16:27:59
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
多模态通用感知能力超越 GPT-5,上海 AI 实验室开源书生・万象 3.5 大模型
2025-09-03 21:51:48
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈
2024-08-02 18:26:27
前微软亚研院视觉专家胡瀚加入腾讯 负责混元多模态大模型
2025-01-08 15:42:57
重构AI在数字和物理世界的生产力,生数科技完成超6亿元A+轮融资
2026-02-06 03:28:59
生数科技再获数亿元大额融资,Vidu领跑多模态大模型赛道
2025-09-19 11:12:21
阶跃星辰发布“万亿”和“多模态”大模型 与上海电影“大闹天宫”|2024WAIC
2024-07-06 21:38:20
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
智源王仲远:多模态大模型对产业更加重要,得多模态大模型得天下
2024-12-31 12:40:05
24小时热文
更多
扫一扫体验小程序