1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Anthropic提出正确的大模型评测方法

人工智能大模型的客观评测有助于行业发展,但目前的基准测试存在诸多问题。评测结果的差异可能源于模型真实能力的不同,也可能只是因为特定问题的选择。评测本质上是实验,但现有研究忽视了其他科学领域的实验分析方法。

Anthropic在最新博客中借鉴统计理论,提出了一系列建议,旨在以科学方式报告评测结果,减少统计噪声,增加信息量。相关论文《Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations》已发布在arXiv上。

建议1:应用中心极限定理

评测由数百或数千个不相关问题组成,如MMLU评测中的多种问题。评测分数通常是问题分数的平均值。Anthropic认为,关注“理论”平均值而非“观察”平均值更为重要。使用中心极限定理,评测分数将趋向正态分布,基于此可以计算标准误差(SEM),从而得出95%置信区间。

建议2:聚类标准误差

当评测问题相关联时,如阅读理解评测中的问题,中心极限定理的应用可能导致标准误差低估。聚类标准误差方法在社会科学中已有研究,可有效避免这一问题。评测分数将更加分散,避免误导性结论。

建议3:减少问题内差异

评测分数的方差取决于问题分数的方差。将分数分解为平均分数和随机成分,减少随机成分可以提高统计精度。对于使用思维链推理的评测,多次采样答案并取平均值。对于不使用思维链推理的评测,可通过语言模型的概率消除随机成分。

建议4:分析配对差异

评测分数的意义在于相互对比。通过配对差异检验,可以消除问题难度的影响,专注于答案差异。实践表明,前沿模型对同一问题的得分高度相关。配对差异分析是一种有效的“自由”方差减少技术,可用于比较模型。

建议5:使用效力分析

统计显著性需考虑统计效力,即检测差异的能力。评测问题数量不足会导致宽置信区间,难以检测微小差异。效力分析可帮助确定评测应包含的问题数量,确保统计检验的有效性。这也有助于新评测的设计和问题数量的决策。

Anthropic希望通过这些建议,帮助研究人员更精确地理解和传达评测结果,推动大模型评测科学的发展。

原文链接
本文链接:https://kx.umi6.com/article/9009.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI最强竞对Anthropic:正确的大模型评测应该是怎样的?
2024-11-20 16:13:21
专治大模型“刷题”,贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
2024-07-18 17:06:23
AI帮我读论文,哪家强?
2025-01-03 15:50:44
Unity中国发行业务总收入破千万元 月增长率保持在30%-40%
2025-10-25 15:32:41
硅谷投资人评估AI泡沫的5项指标
2025-10-24 10:31:18
字节跳动推出3D生成大模型
2025-10-23 16:11:27
OPPO与蚂蚁集团签署战略合作 将共建AI智能体等
2025-10-24 12:40:26
谷歌放大招!Gemini「吞下」2.5亿地图数据,路痴AI一夜成精
2025-10-24 11:33:27
田渊栋被裁后新offer排到法国!原来Llama 4.5训完后被卸磨杀驴了
2025-10-24 09:29:01
斯坦福、哈佛等最新研究:AI 聊天机器人比人类更善于“奉承”
2025-10-25 10:17:38
OpenAI:欧洲业务增长强劲 将继续加大投入
2025-10-24 00:18:56
六大AI实盘交易追踪:中国模型收益领跑,GPT本金亏到不足三成
2025-10-23 18:12:20
云计算“活教科书”语出惊人,指明程序员的进化方向
2025-10-24 16:43:46
24小时热文
更多
扫一扫体验小程序