1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-4o数学能力跑分直降50%,上海AI Lab重新评估大模型

新模型在数学竞赛为主的MATH评测中得分高达80%-90%,但在实际应用中表现不佳。为真实检验模型的数学推理能力,上海人工智能实验室司南OpenCompass团队推出了LiveMathBench评测集,并使用G-Pass@16指标来评估模型的性能潜力和稳定性。

团队在模拟真实使用场景时发现,大部分模型的平均性能下降超过50%,最强的推理模型o1-mini也下降了36%,有些模型甚至下降了90%。

为了更全面地评估模型性能,团队重新思考了传统的Pass@k指标,提出了G-Pass@K指标。G-Pass@K衡量模型在多次生成中至少给出一定次数正确答案的概率,适用于评估模型的稳定性和性能潜力。mG-Pass@K则用于整体评估模型性能。

团队构建了LiveMathBench评测集,包含238道题目,覆盖不同难度。在多个公开基准测试中,实验显示大部分模型在G-Pass@16指标上得分不超过30分。最强的o1-mini模型获得最高分42分,但性能下降仍达36.9%。

实验还发现,大多数模型在高难度题目上的稳定性较差。先进的推理模型如DeepSeek-V2.5和Qwen2.5-72B-Instruct在某些子集上表现良好,但在高难度题目上稳定性下降明显。

研究团队强调,需要更严格地评估模型的推理能力,尤其是在多次采样中保持一致性的应用中。此外,增加模型规模并不能显著提升性能或稳定性,这反映出模型在推理稳定性和一致性方面的不足。

原文链接
本文链接:https://kx.umi6.com/article/10409.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北
2024-11-15 21:06:29
GPT-4o数学能力跑分直掉50%,上海AI Lab开始给大模型重新出题了
2024-12-18 19:38:47
国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业
2025-01-15 21:40:59
OpenAI内部大重组
2025-09-08 19:01:56
AMD:人工智能仍被低估,AI PC 需基于性能优秀的 PC
2025-09-09 22:21:25
英伟达发布超长上下文推理芯片Rubin CPX 算力效率拉爆当前旗舰
2025-09-10 08:32:11
OpenAI否认因重组遇阻而考虑将总部迁出加州
2025-09-09 18:19:40
独家|宇树科技:目前公司未讨论过IPO估值
2025-09-08 20:04:22
AI热潮隐忧浮现?高盛:AI投资持续加速 但企业采用势头放缓
2025-09-09 10:11:49
杭州:设立年度2.5亿元规模的算力券 对采购智能算力服务和模型服务的终端企业给予不超过30%的补贴
2025-09-09 14:23:58
中科创达与吉利汽车集团、NVIDIA联合打造创新产品AIBOX
2025-09-10 08:33:06
我国已发布人工智能国家标准30项 15项人形机器人国标正在研制
2025-09-09 16:20:42
腾讯发布AI CLI工具CodeBuddy Code
2025-09-09 14:24:09
24小时热文
更多
扫一扫体验小程序