斯坦福大学的一项最新研究表明,大模型在数学推理能力上可能并未真正掌握解题逻辑,而只是检索已存储的题目。研究团队提出了一种新的Putnam-AXIOM基准测试集,涵盖1985年至2023年的William Lowell Putnam数学竞赛题目,以更严格地评估模型能力。
结果显示,即使只是更换题目中的变量名称和取值范围,模型的准确率就会大幅下降。例如,表现最好的o1-preview模型在原始数据集上的准确率为50%,但在变异数据集中降至33.96%。其他模型如GPT-4o、Claude、Deepseek和Qwen等也表现不佳。
这项研究揭示了当前大模型在数学推理方面的局限性,需要进一步提升其逻辑推理和数学严谨性。Putnam-AXIOM基准不仅提高了评估难度,还通过自动化评估和多样化变体数据集,为未来的研究提供了有力支持。
原文链接
本文链接:https://kx.umi6.com/article/11194.html
转载请注明文章出处
相关推荐
换一换
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
2025-12-12 14:53:17
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
卓世科技,股改完成!
2026-01-05 15:08:15
中信建投通信及人工智能中期策略:大模型持续迭代 算力需求强劲增长
2026-05-13 09:05:16
MiniMax M3一手实测:老黄PPT上74个Logo,我以为能难住它
2026-06-03 00:53:27
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
中国中文信息学会2025学术年会暨第二届中国大模型大会(CIPS & CLM 2025)于10月28日在北京盛大开幕
2025-10-30 18:52:50
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
2025-12-22 10:35:49
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
月之暗面 Kimi 创始人杨植麟:中国技术不仅要好用还要参与制定规则,未来大模型要推出到 K100
2026-01-12 09:22:11
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
754 文章
651588 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41