标题:GPT-4o数学能力跑分直降50%,上海AI Lab重新评估大模型
新模型在数学竞赛为主的MATH评测中得分高达80%-90%,但在实际应用中表现不佳。为真实检验模型的数学推理能力,上海人工智能实验室司南OpenCompass团队推出了LiveMathBench评测集,并使用G-Pass@16指标来评估模型的性能潜力和稳定性。
团队在模拟真实使用场景时发现,大部分模型的平均性能下降超过50%,最强的推理模型o1-mini也下降了36%,有些模型甚至下降了90%。
为了更全面地评估模型性能,团队重新思考了传统的Pass@k指标,提出了G-Pass@K指标。G-Pass@K衡量模型在多次生成中至少给出一定次数正确答案的概率,适用于评估模型的稳定性和性能潜力。mG-Pass@K则用于整体评估模型性能。
团队构建了LiveMathBench评测集,包含238道题目,覆盖不同难度。在多个公开基准测试中,实验显示大部分模型在G-Pass@16指标上得分不超过30分。最强的o1-mini模型获得最高分42分,但性能下降仍达36.9%。
实验还发现,大多数模型在高难度题目上的稳定性较差。先进的推理模型如DeepSeek-V2.5和Qwen2.5-72B-Instruct在某些子集上表现良好,但在高难度题目上稳定性下降明显。
研究团队强调,需要更严格地评估模型的推理能力,尤其是在多次采样中保持一致性的应用中。此外,增加模型规模并不能显著提升性能或稳定性,这反映出模型在推理稳定性和一致性方面的不足。
原文链接
本文链接:https://kx.umi6.com/article/10409.html
转载请注明文章出处
相关推荐
换一换
国内数学最强!实测讯飞版o1:上能打奥赛卷高考,下能辅导寒假作业
2025-01-15 21:40:59
LLM 数学基准测试集 FrontierMath 公布:号称多数题型 AI 没学过、业界模型均败北
2024-11-15 21:06:29
AI眼镜卖爆!5月成交额暴涨超200% 大量老外来华强北扫货
2026-06-06 00:24:23
从看懂世界到做对动作,卧安机器人OneModel 1.7用一条「隐式通路」打通了具身智能的关键断层
2026-06-03 20:34:55
让矩阵归模拟,让逻辑归数字!这家中国团队重新定义了计算机
2026-06-08 13:25:50
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
2026-06-05 19:24:24
100亿砸向人形,不如先让10万台机器狗走进家庭
2026-06-05 16:04:29
英博数科亮相CCIG 2026,首次公开EBFlex私有化算力管理平台
2026-06-04 16:10:54
NTU 曹子昂教授团队:破解 3D 标注成本难题,只需一张图片丨CVPR 2026
2026-06-05 19:26:11
独家丨华为天才少年王裕鑫创业,首月完成数千万级首轮融资
2026-06-08 12:28:00
中国AI大模型周调用量连续6周超越美国:前4名均为国产模型
2026-06-08 12:24:46
智源&清华合作成果登上Science:脑科学多模态基础模型Brainμ支撑揭示“记忆-睡眠”调控的神经机制
2026-06-05 19:13:44
世界模型榜首易主!跨维智能登顶WorldArena
2026-06-03 19:33:11
770 文章
686718 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08