密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

2025-07-14 14:19:19

心智奇点

发布在

科普

阅读：201

密室逃脱成AI新考场，通关率不足50%，暴露空间推理短板丨清华ICCV25

清华大学团队受密室逃脱游戏启发，提出EscapeCraft——一个3D密室逃脱环境，用于评估多模态大模型（MLLMs）在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。

EscapeCraft是一个沉浸式互动环境，模型需通过自由探索寻找道具、解密码、逃出房间，每一步都涉及视觉、空间和逻辑推理。任务支持多种难度配置，线索位置可灵活调整，例如从箱子移到墙上，以测试模型对环境信息的处理能力。实验发现，GPT-4o在简单场景中表现良好，但当线索远离出口时，常重复错误路径导致失败。

研究还设计了多项创新指标，如“意图与结果一致性”和“道具获取率”，以全面评估模型的推理过程。结果显示，GPT-4o在高难度任务中仅26.5%的子目标是“真正理解后完成”，其余多为偶然成功。此外，Claude 3.5的错误中，61.1%源于推理问题，38.9%为视觉感知问题，表明“看到”并不等于“理解”。

评测涵盖GPT-4o、Gemini-1.5 Pro、Claude 3.5等模型。尽管GPT-4o成功率最高，但在复杂任务中仍频繁出错；国产模型Doubao 1.5 Pro在简单关卡中表现亮眼，交互成功率甚至超越GPT-4o。Gemini和Claude常因方向判断失误而“卡住”，多数模型存在“反复抓错”或“认错道具”等问题。

EscapeCraft不仅关注最终结果，更注重模型的探索和推理过程，为未来智能体研究提供了灵活的基础平台。

项目主页: https://thunlp-mt.github.io/EscapeCraft
GitHub地址: https://github.com/THUNLP-MT/EscapeCraft
论文原文: https://arxiv.org/abs/2503.10042v4

原文链接

本文链接：https://kx.umi6.com/article/21691.html

转载请注明文章出处

多模态大模型