
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:推理大模型1年内可能遭遇性能瓶颈
一年内,大模型推理训练或将遇到瓶颈。这一结论来自Epoch AI,该非营利组织专注于AI研究和基准测试,曾推出备受关注的FrontierMath基准测试。研究表明,若推理模型继续以每3-5个月翻十倍的速度扩展,其训练所需的算力可能会迅速收敛。
OpenAI...
原文链接
据TechCrunch报道,AI基准测试组织FrontierMath因延迟披露收到OpenAI资助而受到质疑。FrontierMath由Epoch AI推出,用于评估AI的数学能力。OpenAI在展示其新AI o3时使用了该基准。Epoch AI副主任Tamay Besiroglu承认未及时公开相关信息,影响了透明度,但强调基准的完整性未受影响。然而,一些用户担忧OpenAI的参与可能影响基准的公正性。此外,OpenAI还参与了基准问题的审核,这一点直到12月20日才被公开。斯坦福大学数学博士生Carina Hong指责OpenAI获得了对FrontierMath基准的优先访问权。Epoch AI首席数学家Ellot Glazer表示,目前尚未独立验证OpenAI在FrontierMath上的表现。
原文链接
1月19日,TechCrunch报道Epoch AI开发的数学基准测试FrontierMath因未及时披露OpenAI资助引发争议。OpenAI的o3模型在该测试中得分25%,远超其他模型的2%。然而,多位参与者表示不知晓OpenAI的独家访问权限,质疑测试的客观性。Epoch AI副主任Tamay Besiroglu承认透明度不足,AI专家Gary Marcus将其比作Theranos丑闻。Besiroglu称存在未向OpenAI公开的数据集用于验证模型。
原文链接
11月15日,研究机构Epoch AI发布了名为FrontierMath的全新AI数学基准测试集,旨在评估AI的数学推理能力。该测试集涵盖复杂的数论、代数和几何题目,这些问题的难度极高,甚至需要人类专家数小时至数天才能解答。FrontierMath的设计者声称,这些题目不仅要求AI理解数学概念,还需具备复杂情境的推理能力。初步测试显示,当前市场上的主流AI模型表现不佳,包括曾在GSM-8K和MATH测试中取得高分的Claude 3.5和GPT-4,其解题成功率均低于2%。研究团队认为,AI在解决高级数学问题时主要困难在于依赖训练数据中的相似题目,而非真正理解和推理问题本身,这表明仅靠增加模型规模难以解决问题,需从模型推理架构上进行根本改造。
原文链接
标题:陶哲轩等60多位顶尖数学家提出新数学基准FrontierMath,挑战大模型
近日,一个名为FrontierMath的新数学基准问世,旨在评估AI的高级数学推理能力。这一基准由非营利研究机构Epoch AI联合陶哲轩等60多位顶尖数学家提出,他们原创了数百道极具挑战性的数学问题,涵盖现代数学的...
原文链接
加载更多

暂无内容