
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年7月,大模型竞技场秘密上线名为“steve”的神秘模型,引发广泛关注和猜测。steve在对话中自称来自DeepSeek,但未披露更多身份信息,网友推测其可能是R2、V4或旧版本升级版。steve的知识截止时间为2023年10月,表现参差不齐,虽通过部分智力测试,但在代码生成和复杂任务上逊色于V3和R1。此外,由于R2项目此前多次延期,CEO梁文锋对其表现不满,研发进程或受硬件限制影响。尽管steve真实身份存疑,但外界对其期待不减。参考链接指向相关爆料与讨论。
原文链接
近日,一篇题为《排行榜幻觉》的68页论文揭示了大模型竞技场Chatbot Arena存在的系统性问题。研究指出,少数大厂如Meta在Llama4发布前私下测试了27个版本,仅公布最佳成绩,导致排名失真。此外,专有模型获取的数据反馈显著多于开源模型,且利用竞技场数据训练可使模型性能提升高达112%。研究团队还发现,205个模型被“静默弃用”,远超官方公布的47个。对此,大模型竞技场官方Lmrena.ai回应称,排行榜反映真实用户偏好,但承认存在测试优化现象。论文建议改进包括禁止撤回分数、限制非正式模型数量及提高弃用透明度。此研究由Cohere团队、普林斯顿大学等机构联合发布,呼吁不应过度依赖单一榜单。
原文链接
近日,一篇题为《排行榜幻觉》的论文指出,大模型竞技场Chatbot Arena存在系统性问题。研究发现,Meta在Llama4发布前私下测试了27个版本,最终只公布最佳成绩,且少数大厂享有数据访问优势。此外,竞技场数据可显著提升模型性能,最高可达112%,但205个模型被静默弃用,远超官方公布的47个。研究团队建议改进规则以提高公平性。对此,Lmarena.ai回应称,排行榜反映真实用户偏好,但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布,呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思,有人推荐OpenRouter作为替代方案。
原文链接
标题:Llama 4遭遇竞技场争议:特供版刷榜疑云
正文:
Meta旗下的Llama 4因在大模型竞技场Chatbot Arena上的表现引发争议。Arena官方指责Meta提供的版本为特供版,并未如实标注。官方已公开超过2000组对战数据,显示模型回复风格与语气是排名的重要影响因素。
初步分析表...
原文链接
OpenAI的GPT-4.5刚登顶竞技场,6小时后就被xAI的Grok-3以1分优势反超,两者票数均为3000+,总分1412:1411。Grok-3在总体带风格控制、困难提示词带风格控制方面略逊于GPT-4.5。DeepSeek-R1总分第6,数学和困难提示词带风格控制与GPT-4.5并列第一。有用户质疑6小时内变化是否合理,解释称大模型竞技场有投票门槛。GPT-4.5口碑有所改善,用户开始称赞其情商。奥尔特曼表示收到邮件请求承诺不下架该模型,并分享了与GPT-4.5的对话记录。此外,GPT-4.5还在一个类似大模型狼人杀的另类榜单中表现出色。
原文链接
Claude 3.7 Sonnet在WebDev竞技场登顶,领先第二名Claude 3.5 Sonnet超过100分。该榜单由LMSYS Org打造,专注于AI编程及网页应用开发能力。DeepSeek R1作为唯一开源模型位列第三。Claude 3.7因其强大的编程能力和新功能如GitHub集成而备受关注,能够快速处理旧代码并提供深入理解代码结构的能力。网友对其最新布料模拟和Visual Basic 4程序转换等能力感到惊艳。Anthropic官方表示Claude 3.7虽不庞大,但后续模型规模会增长。
原文链接
《逆水寒》手游2.2.2新版本将于11月22日上线,联动经典动画《葫芦兄弟》。玩家可领取《葫芦兄弟》音乐、语音包及聊天表情包,并在奇赏商店限时获取葫芦藤庄园组件。庄园组件幕布支持播放《葫芦兄弟》动画片。游戏中将出现小金刚、小蝴蝶等经典角色,玩家可与葫芦兄弟结为异世友人,完成任务领取葫芦神通·隐身符配方。此外,首款1元时装“呱容月貌”(源自蛤蟆精)将限时上架,售价10纹玉,购买者将获赠萌趣动作“呱呱有礼”。新版本还将推出全球首个游戏内AI竞技场,邀请阿里、百度、MiniMax、月之暗面及字节跳动的5家AI厂商大模型参与,玩家将通过投票选出最像真人的NPC。该活动将持续至12月26日。
原文链接
标题:李开复回应一切:竞技场排名“让我们有信心继续做预训练”
国产大模型首次在国际最具挑战的“大模型竞技场”榜单上超过GPT-4o(5月版本),零一万物的名字紧随OpenAI和Google之后,但李开复表示,团队只落后OpenAI 5-6个月,要进一步缩短这个差距,难度很大。
零一万物推出了最新旗舰...
原文链接
国产大模型在国际榜单上取得重大突破。零一万物发布的Yi-Lightning模型在大模型竞技场(Chatbot Arena)上排名第六,数学能力位列第三,多项能力均名列前茅,甚至超越了GPT-4o、Grok-2等顶级模型。与此同时,清华系大模型公司智谱AI的GLM-4-Plus也跻身总榜第九位。此次排名基于全球超千万次的盲测投票,新榜单规则降低了对长度和风格的权重,更注重模型解决问题的能力。Yi-Lightning采用MoE混合专家模型架构,通过优化混合注意力机制和引入跨层注意力等技术,显著提升了推理速度和生成质量,同时保持低成本。此外,零一万物还发布了AI2.0数字人方案,互动效果更加自然。李开复博士表示,国产大模型与硅谷顶尖模型的差距已缩小至五个月,零一万物正通过“模基共建”策略进一步缩小这一差距。
原文链接
【GPT-4o mini排名大幅下滑,大模型竞技场规则更新】
随着大模型竞技场规则的调整,GPT-4o mini的排名迅速下滑,跌出了前10名。新榜单对人工智能回答的长度、风格等特征进行了降权处理,旨在准确反映模型解决实际问题的能力,而非仅仅依赖于表面的格式和长度来取悦用户。这意味着使用漂亮格式或...
原文链接
加载更多

暂无内容