1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

【GPT-4o mini排名大幅下滑,大模型竞技场规则更新】 随着大模型竞技场规则的调整,GPT-4o mini的排名迅速下滑,跌出了前10名。新榜单对人工智能回答的长度、风格等特征进行了降权处理,旨在准确反映模型解决实际问题的能力,而非仅仅依赖于表面的格式和长度来取悦用户。这意味着使用漂亮格式或增加小标题数量等技巧来提升排名的小技巧不再有效。 在新的规则下,GPT-4o mini、马斯克的Grok-2系列以及谷歌的Gemini-1.5-flash小模型排名都有所下降,而Claude系列、Llama-3.1-405b等大模型的分数则有显著提升。特别地,在仅计算困难任务的榜单中,大模型在控制风格方面展现出更强的优势。 这一调整源于Lmsys大模型竞技场组织对GPT-4o mini参与的1000场比赛数据进行深入分析,发现模型的拒绝回答率、生成内容长度以及格式排版是影响评分的关键因素。奥特曼在GPT-4o mini发布前就已意识到模型的优化方向,即按照人类偏好进行调整。 为了应对这一变化,Lmsys推出了新的算法以控制风格的影响,并计划在未来继续优化。通过引入统计学方法,如Bradley-Terry回归,结合回答长度、Markdown小标题数量、列表和加粗文本数量等变量,Lmsys能够更准确地评估模型的真正能力,而非仅依据其呈现形式。 此调整引发了广泛的讨论,有人认为调整后的榜单更贴近用户的真实感受,但也有人指出,榜单的波动反映了行业内部的竞争与创新,对于推动整个领域的发展具有积极意义。对于选择模型的决策者而言,参考大模型竞技场的结果仍具有一定的参考价值,但同时也应结合其他评估方法,以获得更为全面的判断。

原文链接
本文链接:https://kx.umi6.com/article/5702.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4o mini实测:小模型也好用,低价更是杀手锏
2024-07-20 10:12:54
告别打字:OpenAI 免费开放 ChatGPT AI 语音聊天,GPT-4o mini 加持
2025-02-26 11:29:14
OpenAI突发新模型,GPT-3.5退役,大模型成本2年骤降99%
2024-07-19 08:31:50
价格骤降96%~97%,OpenAI“杀入”小模型,GPT-4o mini功能更强、成本更低
2024-07-19 17:28:53
OpenAI开打价格战!GPT-4o最新变种价格骤降96%-97%
2024-07-19 01:40:54
OpenAI 终于发布 GPT-4o mini,但比中国大模型晚了半年
2024-08-02 17:25:43
GPT-4o mini团队揭秘:9人团华人面孔过半,清华北大同济校友在列
2024-07-19 14:26:09
一句“吴恩达说的”,就能让GPT-4o mini言听计从
2025-09-01 17:20:14
百川智能上线开源全模态模型 Omni-1.5,号称多项能力超越 GPT-4o mini
2025-01-26 16:14:16
Anthropic 联设 1 亿美元 AI 初创基金;OpenAI推出“小”模型GPT-4o Mini;通义千问大模型技术骨干周畅将离职创业丨AI情报局
2024-07-19 13:04:57
GPT-4o mini凭什么登顶竞技场?OpenAI刷分秘诀被扒,原来奥特曼早有暗示
2024-07-29 16:56:31
OpenAI凌晨突发“最具性价比”模型GPT-4o mini
2024-07-19 10:53:23
OpenAI 推出 AI 模型 GPT-4o mini,号称功能最强、成本效益最高的小模型
2024-07-18 23:40:41
24小时热文
更多
扫一扫体验小程序