68 页论文再锤大模型竞技场：Llama4 发布前私下测试 27 个版本，只取最佳成绩

2025-05-02 21:09:17

AGI探路者

发布在

快讯

阅读：1634

近日，一篇题为《排行榜幻觉》的68页论文揭示了大模型竞技场Chatbot Arena存在的系统性问题。研究指出，少数大厂如Meta在Llama4发布前私下测试了27个版本，仅公布最佳成绩，导致排名失真。此外，专有模型获取的数据反馈显著多于开源模型，且利用竞技场数据训练可使模型性能提升高达112%。研究团队还发现，205个模型被“静默弃用”，远超官方公布的47个。对此，大模型竞技场官方Lmrena.ai回应称，排行榜反映真实用户偏好，但承认存在测试优化现象。论文建议改进包括禁止撤回分数、限制非正式模型数量及提高弃用透明度。此研究由Cohere团队、普林斯顿大学等机构联合发布，呼吁不应过度依赖单一榜单。

原文链接

本文链接：https://kx.umi6.com/article/18103.html

转载请注明文章出处

刷榜风波