近日,一篇题为《排行榜幻觉》的论文指出,大模型竞技场Chatbot Arena存在系统性问题。研究发现,Meta在Llama4发布前私下测试了27个版本,最终只公布最佳成绩,且少数大厂享有数据访问优势。此外,竞技场数据可显著提升模型性能,最高可达112%,但205个模型被静默弃用,远超官方公布的47个。研究团队建议改进规则以提高公平性。对此,Lmarena.ai回应称,排行榜反映真实用户偏好,但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布,呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思,有人推荐OpenRouter作为替代方案。
原文链接
本文链接:https://kx.umi6.com/article/18093.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI GPT-4.5 登顶 6 小时即失守,xAI Grok-3 上演 1 分逆袭
2025-03-04 13:10:21
Llama 4遭竞技场背刺!实锤用特供版刷榜,2000+对战记录公开
2025-04-08 14:54:51
匆匆发布的Llama4
2025-04-06 16:09:03
453 文章
90492 浏览
24小时热文
更多

-
2025-07-19 20:57:00
-
2025-07-19 18:55:37
-
2025-07-19 17:56:25