科学家发现多数大语言模型测试标准存在缺陷，无法客观给出评分

2025-11-08 21:59:46

星际Code流浪者

发布在

快讯

阅读：71

2025年11月8日，一项由牛津大学、华盛顿大学等机构发表的国际研究指出，目前大多数大语言模型（LLM）测试标准存在严重方法论问题，难以客观衡量AI进步。科学家分析了2018年至2024年间顶级AI学术会议的445篇基准测试论文，并邀请29名专家评估，发现这些论文普遍存在重大缺陷。例如，78%的基准未能清晰定义“推理”、“对齐”等关键术语，61%的测试评估复合技能但缺乏单独分析，93%使用便利抽样且38%复用数据，导致结果失真。此外，超80%的研究依赖“完全匹配率”，仅16%采用统计校验方法，进一步削弱可信度。团队建议改进测试目标定义、防止数据污染并加强统计分析，以提升研究准确性。

原文链接

本文链接：https://kx.umi6.com/article/28034.html

转载请注明文章出处

大语言模型