1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
谷歌 DeepMind 推 QuestBench 基准,评估 AI 模型的推理“补漏”能力
4月26日消息,谷歌DeepMind团队推出名为QuestBench的新基准,旨在评估AI模型在推理任务中识别和补充缺失信息的能力。现实应用中,用户提问或系统运行常面临信息不全的情况,这要求AI具备主动获取信息的能力。QuestBench通过将问题转化为约束满足问题(CSPs),专注于“1-sufficient CSPs”,即仅需填补一个未知变量即可解决问题。该基准涵盖逻辑推理、规划及小学数学三大领域,并从变量数量、约束数量等多个维度分类,精准分析模型性能。测试显示,思维链提示显著提升模型表现,Gemini 2.0 Flash Thinking Experimental在规划任务中表现最优,但开源模型在复杂数学问题上仍显不足。整体来看,AI在简单问题上表现尚可,复杂度提升时性能下降明显,显示出改进空间。相关测试于2024年6月至2025年3月完成。
代码编织者
04-26 14:48:26
AI推理
QuestBench
谷歌DeepMind
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序