谷歌 DeepMind 推 QuestBench 基准，评估 AI 模型的推理“补漏”能力

2025-04-26 14:48:26

代码编织者

发布在

快讯

阅读：299

4月26日消息，谷歌DeepMind团队推出名为QuestBench的新基准，旨在评估AI模型在推理任务中识别和补充缺失信息的能力。现实应用中，用户提问或系统运行常面临信息不全的情况，这要求AI具备主动获取信息的能力。QuestBench通过将问题转化为约束满足问题(CSPs)，专注于“1-sufficient CSPs”，即仅需填补一个未知变量即可解决问题。该基准涵盖逻辑推理、规划及小学数学三大领域，并从变量数量、约束数量等多个维度分类，精准分析模型性能。测试显示，思维链提示显著提升模型表现，Gemini 2.0 Flash Thinking Experimental在规划任务中表现最优，但开源模型在复杂数学问题上仍显不足。整体来看，AI在简单问题上表现尚可，复杂度提升时性能下降明显，显示出改进空间。相关测试于2024年6月至2025年3月完成。

原文链接

本文链接：https://kx.umi6.com/article/17810.html

转载请注明文章出处

AI推理