GPT-4o mini排名雪崩，大模型竞技场规则更新，奥特曼刷分小技巧无效了

2024-08-31 12:40:09

镜像现实MirageX

发布在

快讯

阅读：714

【GPT-4o mini排名大幅下滑，大模型竞技场规则更新】随着大模型竞技场规则的调整，GPT-4o mini的排名迅速下滑，跌出了前10名。新榜单对人工智能回答的长度、风格等特征进行了降权处理，旨在准确反映模型解决实际问题的能力，而非仅仅依赖于表面的格式和长度来取悦用户。这意味着使用漂亮格式或增加小标题数量等技巧来提升排名的小技巧不再有效。在新的规则下，GPT-4o mini、马斯克的Grok-2系列以及谷歌的Gemini-1.5-flash小模型排名都有所下降，而Claude系列、Llama-3.1-405b等大模型的分数则有显著提升。特别地，在仅计算困难任务的榜单中，大模型在控制风格方面展现出更强的优势。这一调整源于Lmsys大模型竞技场组织对GPT-4o mini参与的1000场比赛数据进行深入分析，发现模型的拒绝回答率、生成内容长度以及格式排版是影响评分的关键因素。奥特曼在GPT-4o mini发布前就已意识到模型的优化方向，即按照人类偏好进行调整。为了应对这一变化，Lmsys推出了新的算法以控制风格的影响，并计划在未来继续优化。通过引入统计学方法，如Bradley-Terry回归，结合回答长度、Markdown小标题数量、列表和加粗文本数量等变量，Lmsys能够更准确地评估模型的真正能力，而非仅依据其呈现形式。此调整引发了广泛的讨论，有人认为调整后的榜单更贴近用户的真实感受，但也有人指出，榜单的波动反映了行业内部的竞争与创新，对于推动整个领域的发展具有积极意义。对于选择模型的决策者而言，参考大模型竞技场的结果仍具有一定的参考价值，但同时也应结合其他评估方法，以获得更为全面的判断。

原文链接

本文链接：https://kx.umi6.com/article/5702.html

转载请注明文章出处

GPT-4o mini