密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
清华大学团队受密室逃脱游戏启发,提出EscapeCraft——一个3D密室逃脱环境,用于评估多模态大模型(MLLMs)在复杂任务中的推理和决策能力。该研究已入选ICCV 2025。
EscapeCraft是一个沉浸式互动环境,模型需通过自由探索寻找道具、解密码、逃出房间,每一步都涉及视觉、空间和逻辑推理。任务支持多种难度配置,线索位置可灵活调整,例如从箱子移到墙上,以测试模型对环境信息的处理能力。实验发现,GPT-4o在简单场景中表现良好,但当线索远离出口时,常重复错误路径导致失败。
研究还设计了多项创新指标,如“意图与结果一致性”和“道具获取率”,以全面评估模型的推理过程。结果显示,GPT-4o在高难度任务中仅26.5%的子目标是“真正理解后完成”,其余多为偶然成功。此外,Claude 3.5的错误中,61.1%源于推理问题,38.9%为视觉感知问题,表明“看到”并不等于“理解”。
评测涵盖GPT-4o、Gemini-1.5 Pro、Claude 3.5等模型。尽管GPT-4o成功率最高,但在复杂任务中仍频繁出错;国产模型Doubao 1.5 Pro在简单关卡中表现亮眼,交互成功率甚至超越GPT-4o。Gemini和Claude常因方向判断失误而“卡住”,多数模型存在“反复抓错”或“认错道具”等问题。
EscapeCraft不仅关注最终结果,更注重模型的探索和推理过程,为未来智能体研究提供了灵活的基础平台。
项目主页: https://thunlp-mt.github.io/EscapeCraft
GitHub地址: https://github.com/THUNLP-MT/EscapeCraft
论文原文: https://arxiv.org/abs/2503.10042v4
.png)
- 发自 凹非寺量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们是OpenAI首席科学家Jakub Pachocki以及头衔为“Technical Fellow”的Szymon Sidor。 △左:Jakub Pachocki,右:Szymon Sidor 两人不仅是波兰老乡,而且是高中同学,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背
- 中国气象局推动 AI 天气预报模型创新融合应用,伏羲、璞云、风乌、风清、盘古等入选
- OpenAI内部大重组
- 马斯克“金色擎天柱”首曝,一双“真人手”刷屏
- AI将重塑全球能源市场!高盛:到2030年电力需求将飙升165%

-
2025-09-10 01:24:36
-
2025-09-10 00:24:21
-
2025-09-09 23:22:46