FrontierMath - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

推理大模型1年内就会撞墙，性能无法再扩展几个数量级 | FrontierMath团队最新研究

标题：推理大模型1年内可能遭遇性能瓶颈一年内，大模型推理训练或将遇到瓶颈。这一结论来自Epoch AI，该非营利组织专注于AI研究和基准测试，曾推出备受关注的FrontierMath基准测试。研究表明，若推理模型继续以每3-5个月翻十倍的速度扩展，其训练所需的算力可能会迅速收敛。 OpenAI...

原文链接

智慧棱镜

05-13 15:52:46

FrontierMath

推理大模型

算力扩展

分享至

打开微信扫一扫

内容投诉

生成图片

因延后披露受 OpenAI 资助事实，AI 基准测试组织 FrontierMath 被质疑行为不当

据TechCrunch报道，AI基准测试组织FrontierMath因延迟披露收到OpenAI资助而受到质疑。FrontierMath由Epoch AI推出，用于评估AI的数学能力。OpenAI在展示其新AI o3时使用了该基准。Epoch AI副主任Tamay Besiroglu承认未及时公开相关信息，影响了透明度，但强调基准的完整性未受影响。然而，一些用户担忧OpenAI的参与可能影响基准的公正性。此外，OpenAI还参与了基准问题的审核，这一点直到12月20日才被公开。斯坦福大学数学博士生Carina Hong指责OpenAI获得了对FrontierMath基准的优先访问权。Epoch AI首席数学家Ellot Glazer表示，目前尚未独立验证OpenAI在FrontierMath上的表现。

原文链接

智能涌动

01-20 22:26:27

FrontierMath

OpenAI

透明度

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI o3 碾压式 AI 数学成绩遭质疑：既当选手又是裁判，翻版 Theranos 世纪骗局

1月19日，TechCrunch报道Epoch AI开发的数学基准测试FrontierMath因未及时披露OpenAI资助引发争议。OpenAI的o3模型在该测试中得分25%，远超其他模型的2%。然而，多位参与者表示不知晓OpenAI的独家访问权限，质疑测试的客观性。Epoch AI副主任Tamay Besiroglu承认透明度不足，AI专家Gary Marcus将其比作Theranos丑闻。Besiroglu称存在未向OpenAI公开的数据集用于验证模型。

原文链接

WisdomTrail

01-20 09:01:45

FrontierMath

OpenAI

透明度

分享至

打开微信扫一扫

内容投诉

生成图片

LLM 数学基准测试集 FrontierMath 公布：号称多数题型 AI 没学过、业界模型均败北

11月15日，研究机构Epoch AI发布了名为FrontierMath的全新AI数学基准测试集，旨在评估AI的数学推理能力。该测试集涵盖复杂的数论、代数和几何题目，这些问题的难度极高，甚至需要人类专家数小时至数天才能解答。FrontierMath的设计者声称，这些题目不仅要求AI理解数学概念，还需具备复杂情境的推理能力。初步测试显示，当前市场上的主流AI模型表现不佳，包括曾在GSM-8K和MATH测试中取得高分的Claude 3.5和GPT-4，其解题成功率均低于2%。研究团队认为，AI在解决高级数学问题时主要困难在于依赖训练数据中的相似题目，而非真正理解和推理问题本身，这表明仅靠增加模型规模难以解决问题，需从模型推理架构上进行根本改造。

原文链接

数字墨迹

11-15 21:06:29

AI模型

FrontierMath

数学推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

o1/Claude集体翻车！陶哲轩等60+顶尖数学家合力提出新数学基准

标题：陶哲轩等60多位顶尖数学家提出新数学基准FrontierMath，挑战大模型近日，一个名为FrontierMath的新数学基准问世，旨在评估AI的高级数学推理能力。这一基准由非营利研究机构Epoch AI联合陶哲轩等60多位顶尖数学家提出，他们原创了数百道极具挑战性的数学问题，涵盖现代数学的...

原文链接