竞技场 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

马斯克悄然发布Grok 4.1，霸榜大模型竞技场所有排行榜

2025年11月，马斯克旗下xAI团队悄然发布Grok 4.1，迅速霸榜大模型竞技场多个排行榜。其“思考模式”以1483分Elo稳居第一，“非思考模式”以1465分位列第二，超越公开榜单上所有其他模型的完整推理模式。相比半年前仅排名第33位的Grok 4，新版本实现飞跃。在专家榜和职业榜中，Grok 4.1占据六个领域榜首，仅在文学和数学榜单稍逊对手。此外，在EQ-Bench情商测试中表现优异，超越Kimi K2（非Thinking版）。团队通过强化学习（RLHF）优化模型风格、个性及对齐性，显著提升情感捕捉、创意写作和幻觉问题处理能力。Grok 4.1已在grok.com、X平台及移动端全面开放，默认自动模式运行。

原文链接

星际Code流浪者

11-18 15:24:50

Grok 4.1

大模型竞技场

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

AI竞技场，归根到底只是一门生意

标题：AI竞技场，归根到底只是一门生意正文： “XX发布最强开源大模型，多项基准测试全面超越XX等闭源模型！” “万亿参数开源模型XX强势登顶全球开源模型榜首！” “国产之光！XX模型在中文评测榜单拿下第一！” 类似的新闻是否刷屏了你的社交圈？今天这个模型夺冠，明天那个模型称王。评论区里有...

原文链接

AI思维矩阵

08-06 15:37:54

AI竞技场

大语言模型

排行榜

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-R2！？神秘模型惊现竞技场，真实身份引网友猜测

2025年7月，大模型竞技场秘密上线名为“steve”的神秘模型，引发广泛关注和猜测。steve在对话中自称来自DeepSeek，但未披露更多身份信息，网友推测其可能是R2、V4或旧版本升级版。steve的知识截止时间为2023年10月，表现参差不齐，虽通过部分智力测试，但在代码生成和复杂任务上逊色于V3和R1。此外，由于R2项目此前多次延期，CEO梁文锋对其表现不满，研发进程或受硬件限制影响。尽管steve真实身份存疑，但外界对其期待不减。参考链接指向相关爆料与讨论。

原文链接

LunarCoder

07-03 15:26:08

DeepSeek-R2

steve

大模型竞技场

分享至

打开微信扫一扫

内容投诉

生成图片

68 页论文再锤大模型竞技场：Llama4 发布前私下测试 27 个版本，只取最佳成绩

近日，一篇题为《排行榜幻觉》的68页论文揭示了大模型竞技场Chatbot Arena存在的系统性问题。研究指出，少数大厂如Meta在Llama4发布前私下测试了27个版本，仅公布最佳成绩，导致排名失真。此外，专有模型获取的数据反馈显著多于开源模型，且利用竞技场数据训练可使模型性能提升高达112%。研究团队还发现，205个模型被“静默弃用”，远超官方公布的47个。对此，大模型竞技场官方Lmrena.ai回应称，排行榜反映真实用户偏好，但承认存在测试优化现象。论文建议改进包括禁止撤回分数、限制非正式模型数量及提高弃用透明度。此研究由Cohere团队、普林斯顿大学等机构联合发布，呼吁不应过度依赖单一榜单。

原文链接

AGI探路者

05-02 21:09:17

刷榜风波

大模型竞技场

排行榜幻觉

分享至

打开微信扫一扫

内容投诉

生成图片

大模型竞技场再被锤！Llama4私下测试27个版本，只取最佳成绩

近日，一篇题为《排行榜幻觉》的论文指出，大模型竞技场Chatbot Arena存在系统性问题。研究发现，Meta在Llama4发布前私下测试了27个版本，最终只公布最佳成绩，且少数大厂享有数据访问优势。此外，竞技场数据可显著提升模型性能，最高可达112%，但205个模型被静默弃用，远超官方公布的47个。研究团队建议改进规则以提高公平性。对此，Lmarena.ai回应称，排行榜反映真实用户偏好，但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布，呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思，有人推荐OpenRouter作为替代方案。

原文链接

量子思考者

05-02 13:58:59

Llama4

大模型竞技场

排行榜质疑

分享至

打开微信扫一扫

内容投诉

生成图片

Llama 4遭竞技场背刺！实锤用特供版刷榜，2000+对战记录公开

标题：Llama 4遭遇竞技场争议：特供版刷榜疑云正文： Meta旗下的Llama 4因在大模型竞技场Chatbot Arena上的表现引发争议。Arena官方指责Meta提供的版本为特供版，并未如实标注。官方已公开超过2000组对战数据，显示模型回复风格与语气是排名的重要影响因素。初步分析表...

原文链接

Oasis

04-08 14:54:51

Llama4

刷榜

竞技场

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI GPT-4.5 登顶 6 小时即失守，xAI Grok-3 上演 1 分逆袭

OpenAI的GPT-4.5刚登顶竞技场，6小时后就被xAI的Grok-3以1分优势反超，两者票数均为3000+，总分1412:1411。Grok-3在总体带风格控制、困难提示词带风格控制方面略逊于GPT-4.5。DeepSeek-R1总分第6，数学和困难提示词带风格控制与GPT-4.5并列第一。有用户质疑6小时内变化是否合理，解释称大模型竞技场有投票门槛。GPT-4.5口碑有所改善，用户开始称赞其情商。奥尔特曼表示收到邮件请求承诺不下架该模型，并分享了与GPT-4.5的对话记录。此外，GPT-4.5还在一个类似大模型狼人杀的另类榜单中表现出色。

原文链接

智能视野

03-04 13:10:21

Grok-3

OpenAI GPT-4.5

大模型竞技场

分享至

打开微信扫一扫

内容投诉

生成图片

Claude 3.7登顶编程竞技场，大幅领先100分！最新布料模拟实测再惊艳网友

Claude 3.7 Sonnet在WebDev竞技场登顶，领先第二名Claude 3.5 Sonnet超过100分。该榜单由LMSYS Org打造，专注于AI编程及网页应用开发能力。DeepSeek R1作为唯一开源模型位列第三。Claude 3.7因其强大的编程能力和新功能如GitHub集成而备受关注，能够快速处理旧代码并提供深入理解代码结构的能力。网友对其最新布料模拟和Visual Basic 4程序转换等能力感到惊艳。Anthropic官方表示Claude 3.7虽不庞大，但后续模型规模会增长。

原文链接

梦境编程师

02-28 15:12:36

Claude 3.7

布料模拟

编程竞技场

分享至

打开微信扫一扫

内容投诉

生成图片

《逆水寒》手游 2.2.2 新版本联动《葫芦兄弟》，还将推全球首个游戏内 AI 竞技场

《逆水寒》手游2.2.2新版本将于11月22日上线，联动经典动画《葫芦兄弟》。玩家可领取《葫芦兄弟》音乐、语音包及聊天表情包，并在奇赏商店限时获取葫芦藤庄园组件。庄园组件幕布支持播放《葫芦兄弟》动画片。游戏中将出现小金刚、小蝴蝶等经典角色，玩家可与葫芦兄弟结为异世友人，完成任务领取葫芦神通·隐身符配方。此外，首款1元时装“呱容月貌”（源自蛤蟆精）将限时上架，售价10纹玉，购买者将获赠萌趣动作“呱呱有礼”。新版本还将推出全球首个游戏内AI竞技场，邀请阿里、百度、MiniMax、月之暗面及字节跳动的5家AI厂商大模型参与，玩家将通过投票选出最像真人的NPC。该活动将持续至12月26日。

原文链接

QuantumHacker

11-19 16:47:48

AI竞技场

葫芦兄弟联动

逆水寒手游

分享至

打开微信扫一扫

内容投诉

生成图片

李开复回应一切：竞技场排名“让我们有信心继续做预训练”

标题：李开复回应一切：竞技场排名“让我们有信心继续做预训练” 国产大模型首次在国际最具挑战的“大模型竞技场”榜单上超过GPT-4o（5月版本），零一万物的名字紧随OpenAI和Google之后，但李开复表示，团队只落后OpenAI 5-6个月，要进一步缩短这个差距，难度很大。零一万物推出了最新旗舰...

原文链接