LMArena - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Qwen3.5-Max预览版首度亮相，阿里千问登顶中国最强模型

3月20日，阿里巴巴千问旗舰模型Qwen3.5-Max-Preview在LMArena榜单首度亮相，以1464分登顶中国最强大模型，超越GPT5.4、Claude4.5等海外顶级模型及豆包2.0、GLM5等国产模型。在全球总榜中排名第六，并在数学能力子榜单中位列全球第五、中国第一。LMArena是国际公认的权威盲测榜单，阿里跻身全球前五大模型公司，字节、智谱等中国公司亦闯入全球前十。Qwen3.5系列开源8款模型，性能领先同尺寸竞品，正式版预计近期发布，能力将进一步提升。

原文链接

数据炼金师

03-20 11:19:37

分享至

打开微信扫一扫

内容投诉

生成图片

给AI打个分，结果搞出17亿估值独角兽？？？

2026年1月，大模型评估平台LMArena宣布完成1.5亿美元A轮融资，估值达17亿美元，由Felicis和UC Investments领投。LMArena起源于Chatbot Arena，最初由开源组织LMSYS创建，核心成员多为华人学霸。其评估模式基于匿名对战、Elo评分和人机协同框架，用户通过投票选出更优模型回答，确保公平客观。平台已累计5000万张投票，评估400余种模型，并生成14.5万个开源数据点。此前，LMArena于2025年5月获种子轮1亿美元融资，估值6亿美元。新资金将用于提升平台运营和技术团队扩展，巩固其在AI模型评估领域的领先地位。

原文链接

AGI探路者

01-07 18:23:47

分享至

打开微信扫一扫

内容投诉

生成图片

LMArena最新排名：文心大模型5.0 Preview文本能力位居国内第一

12月23日，LMArena大模型竞技场最新排名显示，文心大模型5.0 Preview（ERNIE-5.0-Preview-1203）以1451分位居中国文本能力第一，超越Claude-Opus-4-1、GPT-5.2等主流模型。该模型在创意写作和复杂任务场景中表现出色，能生成逻辑清晰、结构严谨的文本。据透露，文心大模型5.0正式版将于1月上线。文心大模型于2019年首次发布，5.0版本是百度今年11月推出的原生全模态大模型，参数量达2.4万亿，支持文本、图像、音频、视频等多模态处理。此前，该模型在全球文本榜中排名并列第二，在视觉理解榜中也居国内首位，整体表现与GPT-5-High等相当。

原文链接

心智奇点

12-23 23:02:32

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 Gemini 3.0 Pro 模型发布即登顶 LMArena，奥尔特曼、马斯克齐送贺电

11月19日凌晨，谷歌发布其最强AI模型Gemini 3.0，其中Gemini 3 Pro版本一经推出便登顶LMArena排行榜，超越Grok-4.1、Claude-4.5和GPT-5等竞争对手。该模型在文本、视觉、WebDev、编码、数学及创意写作等多个领域均排名第一。OpenAI CEO奥尔特曼在X平台发文祝贺，谷歌CEO皮查伊以表情回应，而马斯克也称赞并透露自家Grok 4.20模型即将发布。Gemini 3 Pro已向所有用户开放，美国地区的Google AI订阅用户可在搜索中使用其高级功能，AI Ultra用户则率先体验Gemini智能体服务。

原文链接

AI创意引擎

11-19 13:15:11

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，实现第 33 → 1 位性能跃升

11月17日，埃隆·马斯克旗下xAI公司发布最新大语言模型Grok 4.1，已在grok.com及移动应用上线。新模型在LMArena排行榜以1483分登顶，性能从第33位跃升至第1位，其即时响应版本也位列第二。Grok 4.1在情感理解、创意写作和逻辑推理等方面表现优异，EQ-Bench3和Creative Writing v3测试中均名列前茅。此外，通过优化训练，大幅降低了幻觉率，提升了信息查询的准确性，为用户提供更可靠的服务。

原文链接

小阳哥

11-18 10:09:26

分享至

打开微信扫一扫

内容投诉

生成图片

11月13日，据财联社报道，全球AI模型排行榜LMArena最新发布编程与代码生成模型排名（Coding Arena），美国Anthropic的Claude、GPT-5与中国智谱GLM-4.6并列全球第一。Coding模型专为编程任务优化，可帮助开发者高效编写、调试和优化代码，已成为全球科技巨头与初创企业的战略焦点。这一排名反映了当前AI在编程领域的顶尖水平，显示出中美两国在AI技术上的强劲竞争力。（澎湃新闻）

原文链接

数字墨迹

11-13 21:22:57

分享至

打开微信扫一扫

内容投诉

生成图片

AI圈顶级榜单曝黑幕，Meta作弊刷分实锤？

近日，AI大模型排行榜LMArena被曝出可能存在作弊刷分行为，多家机构联合发表论文指控少数大厂利用漏洞操纵排名。论文指出，Meta等公司在测试阶段筛选最优模型，导致排行榜结果失真。OpenAI创始人Andrej Karpathy也分享个人体验，质疑某些模型排名与其实际表现不符。LMArena回应称论文存在事实错误，强调其政策公开透明，并反对将预发布模型纳入排名。事件引发对榜单公信力的广泛讨论，有人建议转向新平台OpenRouterAI，以更真实反映模型性能。LMArena由高校学生发起，初衷虽佳，但随着管理权交接，透明性和公平性受到挑战。此事件发生在LMArena筹备融资之际，可能对其未来发展产生影响。

原文链接