标题:AI七个月突破数学家“围剿”反超人类!14位数学家深挖原始推理token:不靠死记硬背靠直觉
从只能答对2%的题目,到在超难数学题集FrontierMath中获得22%的得分并超过人类团队平均水平,大模型仅用了7个月时间。FrontierMath包含300个难度从本科高年级到菲尔兹奖级别难题的数学问题。
最新研究显示,o3-mini-high并非靠死记硬背解题,而是展现出强大的知识储备和直觉能力。14位数学家分析其29条推理记录后发现,它能正确扩展问题背景并灵活运用高级概念,但在形式精确性和创造力方面仍有不足。
成功案例中,o3-mini-high能在约三分之二的问题上取得至少3分(满分5分)的数学文献调用成绩,但其推理过程常显非正式,有时直接提出猜想而未加证明。失败案例则揭示了其缺乏关键联系构建能力和深度理解,某些情况下甚至陷入“幻觉”,误用术语或公式。
尽管如此,o3-mini-high被认为具备多样化能力,既能展现好奇心探索不同思路,又容易啰嗦重复操作。总体评分显示,它与人类数学家相比仍存差距,但已接近“博士级别”研究生水平。
随着FrontierMath难度升级至第四级别,大模型的表现引发数学界对AI未来潜力的新一轮讨论,尤其是其是否能触及未解难题的“第五层”。
原文链接
本文链接:https://kx.umi6.com/article/19920.html
转载请注明文章出处
相关推荐
.png)
换一换
脑机接口手术要明码标价了!国家医保局发布立项指南 多场景应用潜力待释放
2025-03-12 16:36:22
Recraft专访:20人,8个月做出了最好的文生图大模型,目标是AI版的Photoshop
2025-01-16 10:51:19
首个人形机器人半马落幕:天工夺冠宇树“摔倒”后站起 还有这些奖项值得关注
2025-04-19 14:45:49
450 文章
82376 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21