大模型权威测试被曝翻车！偏袒GPT-4等闭源模型，提示词区别对待

2024-07-11 15:27:21

小阳哥

发布在

快讯

阅读：607

大模型权威测试MMLU-Pro被曝存在问题，评测方法被指偏向GPT-4等闭源模型。测试者发现采样参数、系统提示和答案提取存在不公平，仅通过修改提示词就使Llama-3-8b-q8性能提升10分。官方回应称，尽管影响小于1%，但仍承认答案提取regex需要改进。MMLU-Pro原定于今年5月更新，但其数学主导的特性引发争议，质疑其是否能全面评估知识和推理能力。这一事件引发行业讨论，对大模型性能评估的可信度提出了质疑。

原文链接

本文链接：https://kx.umi6.com/article/3175.html

转载请注明文章出处

MMLU-Pro