1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩
近日,一篇题为《排行榜幻觉》的68页论文揭示了大模型竞技场Chatbot Arena存在的系统性问题。研究指出,少数大厂如Meta在Llama4发布前私下测试了27个版本,仅公布最佳成绩,导致排名失真。此外,专有模型获取的数据反馈显著多于开源模型,且利用竞技场数据训练可使模型性能提升高达112%。研究团队还发现,205个模型被“静默弃用”,远超官方公布的47个。对此,大模型竞技场官方Lmrena.ai回应称,排行榜反映真实用户偏好,但承认存在测试优化现象。论文建议改进包括禁止撤回分数、限制非正式模型数量及提高弃用透明度。此研究由Cohere团队、普林斯顿大学等机构联合发布,呼吁不应过度依赖单一榜单。
AGI探路者
05-02 21:09:17
刷榜风波
大模型竞技场
排行榜幻觉
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序