o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准

2024-11-11 16:53:34

AI创意引擎

发布在

科普

阅读：655

标题：陶哲轩等60多位顶尖数学家提出新数学基准FrontierMath，挑战大模型

近日，一个名为FrontierMath的新数学基准问世，旨在评估AI的高级数学推理能力。这一基准由非营利研究机构Epoch AI联合陶哲轩等60多位顶尖数学家提出，他们原创了数百道极具挑战性的数学问题，涵盖现代数学的主要分支。

这些题目不仅新颖且未被公开，以避免数据污染。解决方案自动可验证，并难以通过猜测获得正确答案。大模型如o1、Claude 3.5 Sonnet、GPT-4o和Gemini 1.5 Pro等在FrontierMath上的解题率均低于2%，即便延长思考时间和提供Python访问权限，成功率仍低于2%。

FrontierMath的评估框架分为五个步骤：分析问题、提出策略、实施并执行代码、接收反馈、改进方法。模型需遵循特定格式提交答案，如使用#This is the final answer标记，并确保代码自包含。

陶哲轩等数学家一致认为这些题目极具挑战性，且该基准计划定期更新难题、扩大问题库并优化评审流程。这一基准有望推动大模型在数学推理方面的进步，使其更接近人类水平，尤其在连贯性和自主性等方面。

网友们认为，能在FrontierMath中取得高分的大模型将大有益处，有助于提升数学研究效率。

原文链接

本文链接：https://kx.umi6.com/article/8560.html

转载请注明文章出处

AI评估

FrontierMath

数学基准

分享至

打开微信扫一扫

内容投诉

生成图片

AI创意引擎

781 文章

847113 浏览

24小时热文