Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开

2025-04-08 14:54:51

Oasis

发布在

科普

阅读：1125

标题：Llama 4遭遇竞技场争议：特供版刷榜疑云

正文：

Meta旗下的Llama 4因在大模型竞技场Chatbot Arena上的表现引发争议。Arena官方指责Meta提供的版本为特供版，并未如实标注。官方已公开超过2000组对战数据，显示模型回复风格与语气是排名的重要影响因素。

初步分析表明，Llama-4-Maverick-03-26-Experimental版本在对战中表现出更友好的语言风格，例如加入表情符号和积极语句，这可能影响了用户偏好评分。Arena计划上线该版本的HuggingFace版本，并更新排行榜政策以增强透明度。

尽管Meta否认使用测试集训练，但仍有人质疑此版本的公平性。Llama 4在竞技场上的排名一度超越多个知名模型，但在第三方测试中表现不佳，引发对其真实能力的怀疑。

有人认为，这种基于人类评价的排名方式已过时，建议采用更客观的评估方法。也有观点提出改进评分算法或引入强制风格转换，以提高评估的公正性。

此事不仅影响了Llama 4的声誉，也引发了对大模型竞技场榜单权威性的广泛讨论。

原文链接

本文链接：https://kx.umi6.com/article/16843.html

转载请注明文章出处

Llama4

刷榜

竞技场

分享至

打开微信扫一扫

内容投诉

生成图片

Oasis

697 文章

769048 浏览

24小时热文