1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

近日,一篇题为《排行榜幻觉》的68页论文揭示了大模型竞技场Chatbot Arena存在的系统性问题。研究指出,少数大厂如Meta在Llama4发布前私下测试了27个版本,仅公布最佳成绩,导致排名失真。此外,专有模型获取的数据反馈显著多于开源模型,且利用竞技场数据训练可使模型性能提升高达112%。研究团队还发现,205个模型被“静默弃用”,远超官方公布的47个。对此,大模型竞技场官方Lmrena.ai回应称,排行榜反映真实用户偏好,但承认存在测试优化现象。论文建议改进包括禁止撤回分数、限制非正式模型数量及提高弃用透明度。此研究由Cohere团队、普林斯顿大学等机构联合发布,呼吁不应过度依赖单一榜单。

原文链接
本文链接:https://kx.umi6.com/article/18103.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
失联大神李沐B站复更:领读Llama 3.1论文;竞技场Llama 3.1排第三
2024-07-31 16:28:38
李开复回应一切:竞技场排名“让我们有信心继续做预训练”
2024-10-31 14:45:51
GPT-4o mini登顶大模型竞技场,奥特曼:两个月内微调免费
2024-07-24 16:09:17
GPT-4o mini凭什么登顶竞技场?OpenAI刷分秘诀被扒,原来奥特曼早有暗示
2024-07-29 16:56:31
DeepSeek-R2!?神秘模型惊现竞技场,真实身份引网友猜测
2025-07-03 15:26:08
大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩
2025-05-02 13:58:59
OpenAI GPT-4.5 登顶 6 小时即失守,xAI Grok-3 上演 1 分逆袭
2025-03-04 13:10:21
68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩
2025-05-02 21:09:17
新一轮AI浏览器大战,谷歌将掉队了?
2025-09-05 10:20:22
报道称DeepSeek计划年底前发布AI智能体 公司暂无回应
2025-09-04 17:05:24
联想发布全球首款AI电脑支架:集成追踪、语音与手势控制
2025-09-05 15:21:36
瑞银:中国AI变现取得进展 芯片本土化进程加速
2025-09-04 18:08:20
腾讯混元游戏 2.0 发布:图片秒变动画 / CG,全面开放使用
2025-09-05 17:21:54
24小时热文
更多
扫一扫体验小程序