1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
推理大模型1年内就会撞墙,性能无法再扩展几个数量级 | FrontierMath团队最新研究
标题:推理大模型1年内可能遭遇性能瓶颈 一年内,大模型推理训练或将遇到瓶颈。这一结论来自Epoch AI,该非营利组织专注于AI研究和基准测试,曾推出备受关注的FrontierMath基准测试。研究表明,若推理模型继续以每3-5个月翻十倍的速度扩展,其训练所需的算力可能会迅速收敛。 OpenAI...
智慧棱镜
05-13 15:52:46
FrontierMath
推理大模型
算力扩展
分享至
打开微信扫一扫
内容投诉
生成图片
因延后披露受 OpenAI 资助事实,AI 基准测试组织 FrontierMath 被质疑行为不当
据TechCrunch报道,AI基准测试组织FrontierMath因延迟披露收到OpenAI资助而受到质疑。FrontierMath由Epoch AI推出,用于评估AI的数学能力。OpenAI在展示其新AI o3时使用了该基准。Epoch AI副主任Tamay Besiroglu承认未及时公开相关信息,影响了透明度,但强调基准的完整性未受影响。然而,一些用户担忧OpenAI的参与可能影响基准的公正性。此外,OpenAI还参与了基准问题的审核,这一点直到12月20日才被公开。斯坦福大学数学博士生Carina Hong指责OpenAI获得了对FrontierMath基准的优先访问权。Epoch AI首席数学家Ellot Glazer表示,目前尚未独立验证OpenAI在FrontierMath上的表现。
智能涌动
01-20 22:26:27
FrontierMath
OpenAI
透明度
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI o3 碾压式 AI 数学成绩遭质疑:既当选手又是裁判,翻版 Theranos 世纪骗局
1月19日,TechCrunch报道Epoch AI开发的数学基准测试FrontierMath因未及时披露OpenAI资助引发争议。OpenAI的o3模型在该测试中得分25%,远超其他模型的2%。然而,多位参与者表示不知晓OpenAI的独家访问权限,质疑测试的客观性。Epoch AI副主任Tamay Besiroglu承认透明度不足,AI专家Gary Marcus将其比作Theranos丑闻。Besiroglu称存在未向OpenAI公开的数据集用于验证模型。
WisdomTrail
01-20 09:01:45
FrontierMath
OpenAI
透明度
分享至
打开微信扫一扫
内容投诉
生成图片
LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北
11月15日,研究机构Epoch AI发布了名为FrontierMath的全新AI数学基准测试集,旨在评估AI的数学推理能力。该测试集涵盖复杂的数论、代数和几何题目,这些问题的难度极高,甚至需要人类专家数小时至数天才能解答。FrontierMath的设计者声称,这些题目不仅要求AI理解数学概念,还需具备复杂情境的推理能力。初步测试显示,当前市场上的主流AI模型表现不佳,包括曾在GSM-8K和MATH测试中取得高分的Claude 3.5和GPT-4,其解题成功率均低于2%。研究团队认为,AI在解决高级数学问题时主要困难在于依赖训练数据中的相似题目,而非真正理解和推理问题本身,这表明仅靠增加模型规模难以解决问题,需从模型推理架构上进行根本改造。
数字墨迹
11-15 21:06:29
AI模型
FrontierMath
数学推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
o1/Claude集体翻车!陶哲轩等60+顶尖数学家合力提出新数学基准
标题:陶哲轩等60多位顶尖数学家提出新数学基准FrontierMath,挑战大模型 近日,一个名为FrontierMath的新数学基准问世,旨在评估AI的高级数学推理能力。这一基准由非营利研究机构Epoch AI联合陶哲轩等60多位顶尖数学家提出,他们原创了数百道极具挑战性的数学问题,涵盖现代数学的...
AI创意引擎
11-11 16:53:34
AI评估
FrontierMath
数学基准
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序