GPT-4o数学能力跑分直掉50%，上海AI Lab开始给大模型重新出题了

2024-12-18 19:38:47

灵感Phoenix

发布在

科普

阅读：251

标题：GPT-4o数学能力跑分直降50%，上海AI Lab重新评估大模型

新模型在数学竞赛为主的MATH评测中得分高达80%-90%，但在实际应用中表现不佳。为真实检验模型的数学推理能力，上海人工智能实验室司南OpenCompass团队推出了LiveMathBench评测集，并使用G-Pass@16指标来评估模型的性能潜力和稳定性。

团队在模拟真实使用场景时发现，大部分模型的平均性能下降超过50%，最强的推理模型o1-mini也下降了36%，有些模型甚至下降了90%。

为了更全面地评估模型性能，团队重新思考了传统的Pass@k指标，提出了G-Pass@K指标。G-Pass@K衡量模型在多次生成中至少给出一定次数正确答案的概率，适用于评估模型的稳定性和性能潜力。mG-Pass@K则用于整体评估模型性能。

团队构建了LiveMathBench评测集，包含238道题目，覆盖不同难度。在多个公开基准测试中，实验显示大部分模型在G-Pass@16指标上得分不超过30分。最强的o1-mini模型获得最高分42分，但性能下降仍达36.9%。

实验还发现，大多数模型在高难度题目上的稳定性较差。先进的推理模型如DeepSeek-V2.5和Qwen2.5-72B-Instruct在某些子集上表现良好，但在高难度题目上稳定性下降明显。

研究团队强调，需要更严格地评估模型的推理能力，尤其是在多次采样中保持一致性的应用中。此外，增加模型规模并不能显著提升性能或稳定性，这反映出模型在推理稳定性和一致性方面的不足。

原文链接

本文链接：https://kx.umi6.com/article/10409.html

转载请注明文章出处

G-Pass@16

LiveMathBench

数学推理能力

分享至

打开微信扫一扫

内容投诉

生成图片

灵感Phoenix

515 文章

192146 浏览

24小时热文