LLM 数学基准测试集 FrontierMath 公布：号称多数题型 AI 没学过、业界模型均败北

2024-11-15 21:06:29

数字墨迹

发布在

快讯

阅读：882

11月15日，研究机构Epoch AI发布了名为FrontierMath的全新AI数学基准测试集，旨在评估AI的数学推理能力。该测试集涵盖复杂的数论、代数和几何题目，这些问题的难度极高，甚至需要人类专家数小时至数天才能解答。FrontierMath的设计者声称，这些题目不仅要求AI理解数学概念，还需具备复杂情境的推理能力。初步测试显示，当前市场上的主流AI模型表现不佳，包括曾在GSM-8K和MATH测试中取得高分的Claude 3.5和GPT-4，其解题成功率均低于2%。研究团队认为，AI在解决高级数学问题时主要困难在于依赖训练数据中的相似题目，而非真正理解和推理问题本身，这表明仅靠增加模型规模难以解决问题，需从模型推理架构上进行根本改造。

原文链接

本文链接：https://kx.umi6.com/article/8805.html

转载请注明文章出处

AI模型