AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

2025-06-09 17:29:05

梦境编程师

发布在

科普

阅读：513

标题：AI七个月突破数学家“围剿”反超人类！14位数学家深挖原始推理token：不靠死记硬背靠直觉

从只能答对2%的题目，到在超难数学题集FrontierMath中获得22%的得分并超过人类团队平均水平，大模型仅用了7个月时间。FrontierMath包含300个难度从本科高年级到菲尔兹奖级别难题的数学问题。

最新研究显示，o3-mini-high并非靠死记硬背解题，而是展现出强大的知识储备和直觉能力。14位数学家分析其29条推理记录后发现，它能正确扩展问题背景并灵活运用高级概念，但在形式精确性和创造力方面仍有不足。

成功案例中，o3-mini-high能在约三分之二的问题上取得至少3分（满分5分）的数学文献调用成绩，但其推理过程常显非正式，有时直接提出猜想而未加证明。失败案例则揭示了其缺乏关键联系构建能力和深度理解，某些情况下甚至陷入“幻觉”，误用术语或公式。

尽管如此，o3-mini-high被认为具备多样化能力，既能展现好奇心探索不同思路，又容易啰嗦重复操作。总体评分显示，它与人类数学家相比仍存差距，但已接近“博士级别”研究生水平。

随着FrontierMath难度升级至第四级别，大模型的表现引发数学界对AI未来潜力的新一轮讨论，尤其是其是否能触及未解难题的“第五层”。

原文链接

本文链接：https://kx.umi6.com/article/19920.html

转载请注明文章出处

AI推理

数学挑战

直觉思维

分享至

打开微信扫一扫

内容投诉

生成图片

梦境编程师

513 文章

196642 浏览

24小时热文