1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福大学的一项最新研究表明,大模型在数学推理能力上可能并未真正掌握解题逻辑,而只是检索已存储的题目。研究团队提出了一种新的Putnam-AXIOM基准测试集,涵盖1985年至2023年的William Lowell Putnam数学竞赛题目,以更严格地评估模型能力。

结果显示,即使只是更换题目中的变量名称和取值范围,模型的准确率就会大幅下降。例如,表现最好的o1-preview模型在原始数据集上的准确率为50%,但在变异数据集中降至33.96%。其他模型如GPT-4o、Claude、Deepseek和Qwen等也表现不佳。

这项研究揭示了当前大模型在数学推理方面的局限性,需要进一步提升其逻辑推理和数学严谨性。Putnam-AXIOM基准不仅提高了评估难度,还通过自动化评估和多样化变体数据集,为未来的研究提供了有力支持。

原文链接
本文链接:https://kx.umi6.com/article/11194.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
百度世界2025将于11月13日在北京举办
2025-10-13 20:03:11
美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出
2025-09-01 11:16:10
蚂蚁密算开源高阶程序HOP框架
2025-07-27 16:06:47
我国大模型数量居全球首位
2025-07-27 13:58:52
阿里、智谱等扎堆发布大模型 编程、金融等方向成焦点
2025-07-30 20:55:52
把枯燥的工作先扔给大模型?
2025-08-15 12:12:45
斯坦福大学最新研究:人工智能正在破坏美国年轻人的就业前景
2025-08-26 22:54:53
上海出台17条措施促进软信业发展 优质大模型应用最高给予30%补助
2025-07-07 20:36:05
一场对抗OpenAI们的“危险游戏”,值不值得投资
2025-07-23 08:46:29
大模型隐私安全和公平性有“跷跷板”效应,最佳平衡法则刚刚找到 | 人大&上海AI Lab
2025-07-28 09:07:15
一只猫就能让最强AI 答错题,Deepseek 也翻车,猫怎么成了大模型“天敌”?
2025-07-07 21:39:02
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
在上海WAIC,800展商无一不想成为黄仁勋
2025-07-27 07:50:27
24小时热文
更多
扫一扫体验小程序