斯坦福大学的一项最新研究表明,大模型在数学推理能力上可能并未真正掌握解题逻辑,而只是检索已存储的题目。研究团队提出了一种新的Putnam-AXIOM基准测试集,涵盖1985年至2023年的William Lowell Putnam数学竞赛题目,以更严格地评估模型能力。
结果显示,即使只是更换题目中的变量名称和取值范围,模型的准确率就会大幅下降。例如,表现最好的o1-preview模型在原始数据集上的准确率为50%,但在变异数据集中降至33.96%。其他模型如GPT-4o、Claude、Deepseek和Qwen等也表现不佳。
这项研究揭示了当前大模型在数学推理方面的局限性,需要进一步提升其逻辑推理和数学严谨性。Putnam-AXIOM基准不仅提高了评估难度,还通过自动化评估和多样化变体数据集,为未来的研究提供了有力支持。
原文链接
本文链接:https://kx.umi6.com/article/11194.html
转载请注明文章出处
相关推荐
换一换
斯坦福新论文:微调已死,自主上下文当立
2025-10-11 14:27:49
火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股
2025-12-19 23:14:23
智谱AI,排名「第二」
2025-12-21 12:41:26
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
2025-12-18 15:51:59
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队
2026-02-27 15:48:37
Ilya罕见发声:大模型「大力出奇迹」到头了
2025-11-26 09:32:32
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
从 CIPS & CLM 迈进:中国大模型的智能跃迁
2025-10-30 17:51:34
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
百度新设两个大模型研发部:直接向CEO李彦宏汇报!
2025-11-25 22:10:22
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
721 文章
560658 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17