1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Anthropic提出正确的大模型评测方法

人工智能大模型的客观评测有助于行业发展,但目前的基准测试存在诸多问题。评测结果的差异可能源于模型真实能力的不同,也可能只是因为特定问题的选择。评测本质上是实验,但现有研究忽视了其他科学领域的实验分析方法。

Anthropic在最新博客中借鉴统计理论,提出了一系列建议,旨在以科学方式报告评测结果,减少统计噪声,增加信息量。相关论文《Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations》已发布在arXiv上。

建议1:应用中心极限定理

评测由数百或数千个不相关问题组成,如MMLU评测中的多种问题。评测分数通常是问题分数的平均值。Anthropic认为,关注“理论”平均值而非“观察”平均值更为重要。使用中心极限定理,评测分数将趋向正态分布,基于此可以计算标准误差(SEM),从而得出95%置信区间。

建议2:聚类标准误差

当评测问题相关联时,如阅读理解评测中的问题,中心极限定理的应用可能导致标准误差低估。聚类标准误差方法在社会科学中已有研究,可有效避免这一问题。评测分数将更加分散,避免误导性结论。

建议3:减少问题内差异

评测分数的方差取决于问题分数的方差。将分数分解为平均分数和随机成分,减少随机成分可以提高统计精度。对于使用思维链推理的评测,多次采样答案并取平均值。对于不使用思维链推理的评测,可通过语言模型的概率消除随机成分。

建议4:分析配对差异

评测分数的意义在于相互对比。通过配对差异检验,可以消除问题难度的影响,专注于答案差异。实践表明,前沿模型对同一问题的得分高度相关。配对差异分析是一种有效的“自由”方差减少技术,可用于比较模型。

建议5:使用效力分析

统计显著性需考虑统计效力,即检测差异的能力。评测问题数量不足会导致宽置信区间,难以检测微小差异。效力分析可帮助确定评测应包含的问题数量,确保统计检验的有效性。这也有助于新评测的设计和问题数量的决策。

Anthropic希望通过这些建议,帮助研究人员更精确地理解和传达评测结果,推动大模型评测科学的发展。

原文链接
本文链接:https://kx.umi6.com/article/9009.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI帮我读论文,哪家强?
2025-01-03 15:50:44
OpenAI最强竞对Anthropic:正确的大模型评测应该是怎样的?
2024-11-20 16:13:21
专治大模型“刷题”,贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
2024-07-18 17:06:23
微软AI负责人预言:未来五年内人人都将有AI伴侣
2026-01-21 22:27:36
摩尔线程携手硅基流动实现DeepSeek-V3大模型高性能推理
2026-01-21 20:31:18
恒者蓬勃!第18届创业邦年会暨创业邦100未来独角兽大会圆满举办
2026-01-21 16:16:19
纳德拉达沃斯警示:没电,AI全是空谈
2026-01-22 04:36:47
深圳芯片「夫妻店」赴港IPO
2026-01-21 15:14:19
黄仁勋:AI发展将带来大规模基建投资潮 数据中心建设对建筑、技术工人需求上升
2026-01-22 11:53:27
阿里云智能集团资深副总裁李飞飞:内存价格预计还会上涨两到三倍
2026-01-22 19:09:39
2025 年 ACM Fellow 名单公布:郑宇、梅涛、金海、陈宝权等 19 名华人学者入榜
2026-01-23 11:50:59
我国已累计推动价值超550亿元新材料产品进入市场
2026-01-21 17:24:39
AI时代教育被质疑导致“新寒门” 阿里千问回应:不存在!
2026-01-23 11:49:50
24小时热文
更多
扫一扫体验小程序