牛津大学研究：当前基准测试普遍夸大了 AI 模型的性能

2025-11-06 19:10:49

WisdomTrail

发布在

快讯

阅读：1115

牛津大学互联网研究所联合30多位研究人员发布研究称，当前用于评估AI模型性能的基准测试普遍存在夸大问题，缺乏科学严谨性。研究分析了445项主流基准测试，发现约一半未能明确定义测量目标，且常重复使用数据和方法，统计比较也不够可靠。高级研究员亚当・马赫迪指出，这些测试可能误导公众对AI能力的认知，例如通过GSM8K测试评估数学推理能力时，答对问题未必代表真正具备推理能力。研究呼吁改进基准测试，提出八项建议，包括明确评估范围、构建代表性任务组合及加强统计分析，以提升测试透明度与可信度。该研究于11月6日发布，引发广泛关注。

原文链接

本文链接：https://kx.umi6.com/article/27920.html

转载请注明文章出处

AI基准测试