1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,一篇题为《排行榜幻觉》的论文指出,大模型竞技场Chatbot Arena存在系统性问题。研究发现,Meta在Llama4发布前私下测试了27个版本,最终只公布最佳成绩,且少数大厂享有数据访问优势。此外,竞技场数据可显著提升模型性能,最高可达112%,但205个模型被静默弃用,远超官方公布的47个。研究团队建议改进规则以提高公平性。对此,Lmarena.ai回应称,排行榜反映真实用户偏好,但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布,呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思,有人推荐OpenRouter作为替代方案。

原文链接
本文链接:https://kx.umi6.com/article/18093.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测
2025-07-03 15:26:08
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯
2025-04-06 10:54:42
Meta发布最强开源Llama 4,超越DeepSeek V3
2025-04-06 10:58:02
小扎回应Llama4对比DeepSeek:榜单有缺陷,等推理模型出来再比
2025-04-30 19:06:29
GPT-4o mini凭什么登顶竞技场?OpenAI刷分秘诀被扒,原来奥特曼早有暗示
2024-07-29 16:56:31
“开源王者”Llama4,却让DeepSeek们松了一口气
2025-04-07 08:47:00
失联大神李沐B站复更:领读Llama 3.1论文;竞技场Llama 3.1排第三
2024-07-31 16:28:38
AI 科学家杨立昆离职后曝 Meta 模型作弊刷榜
2026-01-04 14:07:44
Llama 4发布:我看到了DeepSeek的影子
2025-04-06 16:06:56
李开复回应一切:竞技场排名“让我们有信心继续做预训练”
2024-10-31 14:45:51
马斯克悄然发布Grok 4.1,霸榜大模型竞技场所有排行榜
2025-11-18 15:24:50
AI圈暗流涌动:Llama 4来了,DeepSeek R2和GPT-5也不远了?
2025-04-07 10:49:36
GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
2024-07-24 16:09:17
24小时热文
更多
扫一扫体验小程序