标题:Anthropic提出正确的大模型评测方法
人工智能大模型的客观评测有助于行业发展,但目前的基准测试存在诸多问题。评测结果的差异可能源于模型真实能力的不同,也可能只是因为特定问题的选择。评测本质上是实验,但现有研究忽视了其他科学领域的实验分析方法。
Anthropic在最新博客中借鉴统计理论,提出了一系列建议,旨在以科学方式报告评测结果,减少统计噪声,增加信息量。相关论文《Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations》已发布在arXiv上。
建议1:应用中心极限定理
评测由数百或数千个不相关问题组成,如MMLU评测中的多种问题。评测分数通常是问题分数的平均值。Anthropic认为,关注“理论”平均值而非“观察”平均值更为重要。使用中心极限定理,评测分数将趋向正态分布,基于此可以计算标准误差(SEM),从而得出95%置信区间。
建议2:聚类标准误差
当评测问题相关联时,如阅读理解评测中的问题,中心极限定理的应用可能导致标准误差低估。聚类标准误差方法在社会科学中已有研究,可有效避免这一问题。评测分数将更加分散,避免误导性结论。
建议3:减少问题内差异
评测分数的方差取决于问题分数的方差。将分数分解为平均分数和随机成分,减少随机成分可以提高统计精度。对于使用思维链推理的评测,多次采样答案并取平均值。对于不使用思维链推理的评测,可通过语言模型的概率消除随机成分。
建议4:分析配对差异
评测分数的意义在于相互对比。通过配对差异检验,可以消除问题难度的影响,专注于答案差异。实践表明,前沿模型对同一问题的得分高度相关。配对差异分析是一种有效的“自由”方差减少技术,可用于比较模型。
建议5:使用效力分析
统计显著性需考虑统计效力,即检测差异的能力。评测问题数量不足会导致宽置信区间,难以检测微小差异。效力分析可帮助确定评测应包含的问题数量,确保统计检验的有效性。这也有助于新评测的设计和问题数量的决策。
Anthropic希望通过这些建议,帮助研究人员更精确地理解和传达评测结果,推动大模型评测科学的发展。
.png)

-
2025-07-22 00:23:59
-
2025-07-21 22:23:40
-
2025-07-21 21:25:24