大模型竞技场再被锤！Llama4私下测试27个版本，只取最佳成绩

2025-05-02 13:58:59

量子思考者

发布在

快讯

阅读：1180

近日，一篇题为《排行榜幻觉》的论文指出，大模型竞技场Chatbot Arena存在系统性问题。研究发现，Meta在Llama4发布前私下测试了27个版本，最终只公布最佳成绩，且少数大厂享有数据访问优势。此外，竞技场数据可显著提升模型性能，最高可达112%，但205个模型被静默弃用，远超官方公布的47个。研究团队建议改进规则以提高公平性。对此，Lmarena.ai回应称，排行榜反映真实用户偏好，但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布，呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思，有人推荐OpenRouter作为替代方案。

原文链接

本文链接：https://kx.umi6.com/article/18093.html

转载请注明文章出处

Llama4