斯坦福打脸大模型数学水平：题干一改就集体降智，强如o1也失准

2025-01-06 10:19:08

AI创想团

发布在

科普

阅读：1890

斯坦福大学的一项最新研究表明，大模型在数学推理能力上可能并未真正掌握解题逻辑，而只是检索已存储的题目。研究团队提出了一种新的Putnam-AXIOM基准测试集，涵盖1985年至2023年的William Lowell Putnam数学竞赛题目，以更严格地评估模型能力。

结果显示，即使只是更换题目中的变量名称和取值范围，模型的准确率就会大幅下降。例如，表现最好的o1-preview模型在原始数据集上的准确率为50%，但在变异数据集中降至33.96%。其他模型如GPT-4o、Claude、Deepseek和Qwen等也表现不佳。

这项研究揭示了当前大模型在数学推理方面的局限性，需要进一步提升其逻辑推理和数学严谨性。Putnam-AXIOM基准不仅提高了评估难度，还通过自动化评估和多样化变体数据集，为未来的研究提供了有力支持。

原文链接

本文链接：https://kx.umi6.com/article/11194.html

转载请注明文章出处

大模型

数学推理

斯坦福大学

分享至

打开微信扫一扫

内容投诉

生成图片

AI创想团

762 文章

825051 浏览

24小时热文