1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福大学的一项最新研究表明,大模型在数学推理能力上可能并未真正掌握解题逻辑,而只是检索已存储的题目。研究团队提出了一种新的Putnam-AXIOM基准测试集,涵盖1985年至2023年的William Lowell Putnam数学竞赛题目,以更严格地评估模型能力。

结果显示,即使只是更换题目中的变量名称和取值范围,模型的准确率就会大幅下降。例如,表现最好的o1-preview模型在原始数据集上的准确率为50%,但在变异数据集中降至33.96%。其他模型如GPT-4o、Claude、Deepseek和Qwen等也表现不佳。

这项研究揭示了当前大模型在数学推理方面的局限性,需要进一步提升其逻辑推理和数学严谨性。Putnam-AXIOM基准不仅提高了评估难度,还通过自动化评估和多样化变体数据集,为未来的研究提供了有力支持。

原文链接
本文链接:https://kx.umi6.com/article/11194.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型首次直接理解代码图:不用 Agent 自动修 bug,登顶 SWE-Bench 开源模型榜单
2025-06-27 15:12:57
上海市经信委:重点围绕大模型、语料数据和人形机器人 培育开源生态体系
2025-07-04 17:47:59
斯坦福大学最新研究:人工智能正在破坏美国年轻人的就业前景
2025-08-26 22:54:53
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
IDC评测9家座舱大模型产品 斑马获最多项满分推荐
2025-07-18 11:36:59
港股AGI第一股“云知声”首战告捷:大模型贡献1亿收入,单客价直线提升116.2%,AI保险业务暴涨1386.8%
2025-08-29 20:43:34
大模型套壳往事
2025-07-14 18:26:03
大模型热度退潮,真正的技术创新者开始被「看见」
2025-06-20 17:06:44
毕马威报告:中国银行业在大模型落地应用方面走在前列
2025-06-23 16:27:32
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
2025WAIC:大厂回归,医疗AI爆火出圈
2025-07-30 15:47:42
一只猫就能让最强AI 答错题,Deepseek 也翻车,猫怎么成了大模型“天敌”?
2025-07-07 21:39:02
亚马逊云科技大中华区总裁储瑞松:Agentic AI处于爆发前夜
2025-06-19 10:49:07
24小时热文
更多
扫一扫体验小程序