斯坦福大学的一项最新研究表明,大模型在数学推理能力上可能并未真正掌握解题逻辑,而只是检索已存储的题目。研究团队提出了一种新的Putnam-AXIOM基准测试集,涵盖1985年至2023年的William Lowell Putnam数学竞赛题目,以更严格地评估模型能力。
结果显示,即使只是更换题目中的变量名称和取值范围,模型的准确率就会大幅下降。例如,表现最好的o1-preview模型在原始数据集上的准确率为50%,但在变异数据集中降至33.96%。其他模型如GPT-4o、Claude、Deepseek和Qwen等也表现不佳。
这项研究揭示了当前大模型在数学推理方面的局限性,需要进一步提升其逻辑推理和数学严谨性。Putnam-AXIOM基准不仅提高了评估难度,还通过自动化评估和多样化变体数据集,为未来的研究提供了有力支持。
原文链接
本文链接:https://kx.umi6.com/article/11194.html
转载请注明文章出处
相关推荐
换一换
Manus救不了Meta
2026-01-08 20:35:12
上海:推动医疗器械相关垂类大模型研发应用
2025-09-15 16:02:14
美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出
2025-09-01 11:16:10
智谱AI,排名「第二」
2025-12-21 12:41:26
Gartner首次发布大模型报告:火山引擎排名中国厂商第一
2025-11-20 12:17:36
美团 LongCat 大模型官方 App 发布:支持联网搜索,还可以发起语音通话
2025-11-03 14:22:48
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
百度世界2025将于11月13日在北京举办
2025-10-13 20:03:11
大模型产生幻觉,全怪人类PUA吗?
2025-09-10 15:36:03
卓世科技,股改完成!
2026-01-05 15:08:15
Kimi即将推出新一代万亿大模型:开源王者刷新 去年已超GPT5
2026-01-20 22:33:50
刚刚,智谱港交所敲钟!市值528亿港元
2026-01-08 11:04:01
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
659 文章
430352 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55