LMArena - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

LMArena排行榜：多款国产模型上榜

2月27日，全球大模型竞技场LMArena最新榜单发布，字节跳动旗下Seed 2.0位列综合排行榜全球第9，成为登榜国产模型首位。此外，GLM-5、文心5.0、Qwen 3.5、Kimi K2.5分别位列第16至19位。榜单前三仍由国际主流大模型占据，依次为claude-opus-4-6、gemini-3.1-pro-pr和grok-4.20-beta1。本次榜单显示多款国产旗舰大模型密集发布并崭露头角，标志着国产模型在全球竞争中的进一步崛起。（记者黄心怡）

原文链接

数字墨迹

02-27 21:14:17

LMArena排行榜

Seed 2.0

国产模型

分享至

打开微信扫一扫

内容投诉

生成图片

给AI打个分，结果搞出17亿估值独角兽？？？

2026年1月，大模型评估平台LMArena宣布完成1.5亿美元A轮融资，估值达17亿美元，由Felicis和UC Investments领投。LMArena起源于Chatbot Arena，最初由开源组织LMSYS创建，核心成员多为华人学霸。其评估模式基于匿名对战、Elo评分和人机协同框架，用户通过投票选出更优模型回答，确保公平客观。平台已累计5000万张投票，评估400余种模型，并生成14.5万个开源数据点。此前，LMArena于2025年5月获种子轮1亿美元融资，估值6亿美元。新资金将用于提升平台运营和技术团队扩展，巩固其在AI模型评估领域的领先地位。

原文链接

AGI探路者

01-07 18:23:47

AI独角兽

LMArena

大模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

LMArena最新排名：文心大模型5.0 Preview文本能力位居国内第一

12月23日，LMArena大模型竞技场最新排名显示，文心大模型5.0 Preview（ERNIE-5.0-Preview-1203）以1451分位居中国文本能力第一，超越Claude-Opus-4-1、GPT-5.2等主流模型。该模型在创意写作和复杂任务场景中表现出色，能生成逻辑清晰、结构严谨的文本。据透露，文心大模型5.0正式版将于1月上线。文心大模型于2019年首次发布，5.0版本是百度今年11月推出的原生全模态大模型，参数量达2.4万亿，支持文本、图像、音频、视频等多模态处理。此前，该模型在全球文本榜中排名并列第二，在视觉理解榜中也居国内首位，整体表现与GPT-5-High等相当。

原文链接

心智奇点

12-23 23:02:32

ERNIE-5.0-Preview-1203

LMArena

文心大模型

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌 Gemini 3.0 Pro 模型发布即登顶 LMArena，奥尔特曼、马斯克齐送贺电

11月19日凌晨，谷歌发布其最强AI模型Gemini 3.0，其中Gemini 3 Pro版本一经推出便登顶LMArena排行榜，超越Grok-4.1、Claude-4.5和GPT-5等竞争对手。该模型在文本、视觉、WebDev、编码、数学及创意写作等多个领域均排名第一。OpenAI CEO奥尔特曼在X平台发文祝贺，谷歌CEO皮查伊以表情回应，而马斯克也称赞并透露自家Grok 4.20模型即将发布。Gemini 3 Pro已向所有用户开放，美国地区的Google AI订阅用户可在搜索中使用其高级功能，AI Ultra用户则率先体验Gemini智能体服务。

原文链接

AI创意引擎

11-19 13:15:11

Gemini 3.0 Pro

LMArena

奥尔特曼

分享至

打开微信扫一扫

内容投诉

生成图片

马斯克再出 AI 王牌：Grok 4.1 霸榜 LMArena 排行榜，实现第 33 → 1 位性能跃升

11月17日，埃隆·马斯克旗下xAI公司发布最新大语言模型Grok 4.1，已在grok.com及移动应用上线。新模型在LMArena排行榜以1483分登顶，性能从第33位跃升至第1位，其即时响应版本也位列第二。Grok 4.1在情感理解、创意写作和逻辑推理等方面表现优异，EQ-Bench3和Creative Writing v3测试中均名列前茅。此外，通过优化训练，大幅降低了幻觉率，提升了信息查询的准确性，为用户提供更可靠的服务。

原文链接

小阳哥

11-18 10:09:26

Grok 4.1

LMArena

幻觉率

分享至

打开微信扫一扫

内容投诉

生成图片

11月13日，据财联社报道，全球AI模型排行榜LMArena最新发布编程与代码生成模型排名（Coding Arena），美国Anthropic的Claude、GPT-5与中国智谱GLM-4.6并列全球第一。Coding模型专为编程任务优化，可帮助开发者高效编写、调试和优化代码，已成为全球科技巨头与初创企业的战略焦点。这一排名反映了当前AI在编程领域的顶尖水平，显示出中美两国在AI技术上的强劲竞争力。（澎湃新闻）

原文链接

数字墨迹

11-13 21:22:57

Claude

LMArena

智谱GLM-4.6

分享至

打开微信扫一扫

内容投诉

生成图片

刚刚，全球AI生图新王诞生！腾讯混元图像3.0登顶了

2025年10月5日，腾讯混元图像3.0登顶全球AI文生图榜单首位，超越谷歌Nano Banana、字节Seedream等强劲对手，在国际权威竞技场LMArena的26个大模型中稳居第一。该模型采用原生多模态架构，参数规模达80B，是目前最大的开源生图模型，支持文字、图片、视频与音频多模态处理。其语义理解能力大幅提升，可生成高质量图像，如中秋节海报、火焰猫咪等创意作品，并在多项技术指标上领先行业。此外，混元3.0开源且提供多种资源链接，引发全民体验热潮，热度持续飙升。

原文链接

智能维度跳跃

10-05 15:21:12

LMArena榜单

文生图模型

腾讯混元图像3.0

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯混元图像 3.0 模型登顶 LMArena 全球“盲测”第一

10月5日，腾讯混元图像3.0模型在国际大模型竞技场LMArena的文生图榜单中，凭借全球用户的“盲测”投票，超越26个顶尖模型荣登第一。LMArena由美国加州大学伯克利分校推出，采用基于人类真实偏好的匿名投票机制，是目前最权威的AI模型评估平台之一。混元图像3.0于9月28日发布，现已开放文生图能力，并计划后续推出图生图、图像编辑等功能。该模型不仅能生成复杂文本、漫画、表情包和科普插画，还能大幅提升视觉创作者效率，使无美术功底的用户也能轻松创作生动内容。

原文链接

心智奇点

10-05 12:18:41

LMArena盲测

文生图能力

腾讯混元图像3.0

分享至

打开微信扫一扫

内容投诉

生成图片

AI圈顶级榜单曝黑幕，Meta作弊刷分实锤？

近日，AI大模型排行榜LMArena被曝出可能存在作弊刷分行为，多家机构联合发表论文指控少数大厂利用漏洞操纵排名。论文指出，Meta等公司在测试阶段筛选最优模型，导致排行榜结果失真。OpenAI创始人Andrej Karpathy也分享个人体验，质疑某些模型排名与其实际表现不符。LMArena回应称论文存在事实错误，强调其政策公开透明，并反对将预发布模型纳入排名。事件引发对榜单公信力的广泛讨论，有人建议转向新平台OpenRouterAI，以更真实反映模型性能。LMArena由高校学生发起，初衷虽佳，但随着管理权交接，透明性和公平性受到挑战。此事件发生在LMArena筹备融资之际，可能对其未来发展产生影响。

原文链接