构念效度 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

牛津大学研究：当前基准测试普遍夸大了 AI 模型的性能

牛津大学互联网研究所联合30多位研究人员发布研究称，当前用于评估AI模型性能的基准测试普遍存在夸大问题，缺乏科学严谨性。研究分析了445项主流基准测试，发现约一半未能明确定义测量目标，且常重复使用数据和方法，统计比较也不够可靠。高级研究员亚当・马赫迪指出，这些测试可能误导公众对AI能力的认知，例如通过GSM8K测试评估数学推理能力时，答对问题未必代表真正具备推理能力。研究呼吁改进基准测试，提出八项建议，包括明确评估范围、构建代表性任务组合及加强统计分析，以提升测试透明度与可信度。该研究于11月6日发布，引发广泛关注。

原文链接