1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4月26日消息,谷歌DeepMind团队推出名为QuestBench的新基准,旨在评估AI模型在推理任务中识别和补充缺失信息的能力。现实应用中,用户提问或系统运行常面临信息不全的情况,这要求AI具备主动获取信息的能力。QuestBench通过将问题转化为约束满足问题(CSPs),专注于“1-sufficient CSPs”,即仅需填补一个未知变量即可解决问题。该基准涵盖逻辑推理、规划及小学数学三大领域,并从变量数量、约束数量等多个维度分类,精准分析模型性能。测试显示,思维链提示显著提升模型表现,Gemini 2.0 Flash Thinking Experimental在规划任务中表现最优,但开源模型在复杂数学问题上仍显不足。整体来看,AI在简单问题上表现尚可,复杂度提升时性能下降明显,显示出改进空间。相关测试于2024年6月至2025年3月完成。

原文链接
本文链接:https://kx.umi6.com/article/17810.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
消息称黄仁勋出席海湖庄园晚宴后 白宫改变限制英伟达向中国出口AI芯片H20计划
2025-04-10 13:56:09
字节火山引擎总裁谭待:现在大模型价格回归正常水平,原来太贵了
2024-08-28 10:54:30
人工智能+新型工业化!中外企业这些方向值得关注|直击进博会
2024-11-07 10:03:02
24小时热文
更多
扫一扫体验小程序