1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Anthropic提出正确的大模型评测方法

人工智能大模型的客观评测有助于行业发展,但目前的基准测试存在诸多问题。评测结果的差异可能源于模型真实能力的不同,也可能只是因为特定问题的选择。评测本质上是实验,但现有研究忽视了其他科学领域的实验分析方法。

Anthropic在最新博客中借鉴统计理论,提出了一系列建议,旨在以科学方式报告评测结果,减少统计噪声,增加信息量。相关论文《Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations》已发布在arXiv上。

建议1:应用中心极限定理

评测由数百或数千个不相关问题组成,如MMLU评测中的多种问题。评测分数通常是问题分数的平均值。Anthropic认为,关注“理论”平均值而非“观察”平均值更为重要。使用中心极限定理,评测分数将趋向正态分布,基于此可以计算标准误差(SEM),从而得出95%置信区间。

建议2:聚类标准误差

当评测问题相关联时,如阅读理解评测中的问题,中心极限定理的应用可能导致标准误差低估。聚类标准误差方法在社会科学中已有研究,可有效避免这一问题。评测分数将更加分散,避免误导性结论。

建议3:减少问题内差异

评测分数的方差取决于问题分数的方差。将分数分解为平均分数和随机成分,减少随机成分可以提高统计精度。对于使用思维链推理的评测,多次采样答案并取平均值。对于不使用思维链推理的评测,可通过语言模型的概率消除随机成分。

建议4:分析配对差异

评测分数的意义在于相互对比。通过配对差异检验,可以消除问题难度的影响,专注于答案差异。实践表明,前沿模型对同一问题的得分高度相关。配对差异分析是一种有效的“自由”方差减少技术,可用于比较模型。

建议5:使用效力分析

统计显著性需考虑统计效力,即检测差异的能力。评测问题数量不足会导致宽置信区间,难以检测微小差异。效力分析可帮助确定评测应包含的问题数量,确保统计检验的有效性。这也有助于新评测的设计和问题数量的决策。

Anthropic希望通过这些建议,帮助研究人员更精确地理解和传达评测结果,推动大模型评测科学的发展。

原文链接
本文链接:https://kx.umi6.com/article/9009.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
专治大模型“刷题”,贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
2024-07-18 17:06:23
OpenAI最强竞对Anthropic:正确的大模型评测应该是怎样的?
2024-11-20 16:13:21
AI帮我读论文,哪家强?
2025-01-03 15:50:44
24小时热文
更多
扫一扫体验小程序