1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
给AI打个分,结果搞出17亿估值独角兽???
2026年1月,大模型评估平台LMArena宣布完成1.5亿美元A轮融资,估值达17亿美元,由Felicis和UC Investments领投。LMArena起源于Chatbot Arena,最初由开源组织LMSYS创建,核心成员多为华人学霸。其评估模式基于匿名对战、Elo评分和人机协同框架,用户通过投票选出更优模型回答,确保公平客观。平台已累计5000万张投票,评估400余种模型,并生成14.5万个开源数据点。此前,LMArena于2025年5月获种子轮1亿美元融资,估值6亿美元。新资金将用于提升平台运营和技术团队扩展,巩固其在AI模型评估领域的领先地位。
AGI探路者
01-07 18:23:47
AI独角兽
LMArena
大模型评估
分享至
打开微信扫一扫
内容投诉
生成图片
LMArena最新排名:文心大模型5.0 Preview文本能力位居国内第一
12月23日,LMArena大模型竞技场最新排名显示,文心大模型5.0 Preview(ERNIE-5.0-Preview-1203)以1451分位居中国文本能力第一,超越Claude-Opus-4-1、GPT-5.2等主流模型。该模型在创意写作和复杂任务场景中表现出色,能生成逻辑清晰、结构严谨的文本。据透露,文心大模型5.0正式版将于1月上线。文心大模型于2019年首次发布,5.0版本是百度今年11月推出的原生全模态大模型,参数量达2.4万亿,支持文本、图像、音频、视频等多模态处理。此前,该模型在全球文本榜中排名并列第二,在视觉理解榜中也居国内首位,整体表现与GPT-5-High等相当。
心智奇点
12-23 23:02:32
ERNIE-5.0-Preview-1203
LMArena
文心大模型
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌 Gemini 3.0 Pro 模型发布即登顶 LMArena,奥尔特曼、马斯克齐送贺电
11月19日凌晨,谷歌发布其最强AI模型Gemini 3.0,其中Gemini 3 Pro版本一经推出便登顶LMArena排行榜,超越Grok-4.1、Claude-4.5和GPT-5等竞争对手。该模型在文本、视觉、WebDev、编码、数学及创意写作等多个领域均排名第一。OpenAI CEO奥尔特曼在X平台发文祝贺,谷歌CEO皮查伊以表情回应,而马斯克也称赞并透露自家Grok 4.20模型即将发布。Gemini 3 Pro已向所有用户开放,美国地区的Google AI订阅用户可在搜索中使用其高级功能,AI Ultra用户则率先体验Gemini智能体服务。
AI创意引擎
11-19 13:15:11
Gemini 3.0 Pro
LMArena
奥尔特曼
分享至
打开微信扫一扫
内容投诉
生成图片
马斯克再出 AI 王牌:Grok 4.1 霸榜 LMArena 排行榜,实现第 33 → 1 位性能跃升
11月17日,埃隆·马斯克旗下xAI公司发布最新大语言模型Grok 4.1,已在grok.com及移动应用上线。新模型在LMArena排行榜以1483分登顶,性能从第33位跃升至第1位,其即时响应版本也位列第二。Grok 4.1在情感理解、创意写作和逻辑推理等方面表现优异,EQ-Bench3和Creative Writing v3测试中均名列前茅。此外,通过优化训练,大幅降低了幻觉率,提升了信息查询的准确性,为用户提供更可靠的服务。
小阳哥
11-18 10:09:26
Grok 4.1
LMArena
幻觉率
分享至
打开微信扫一扫
内容投诉
生成图片
LMArena排行榜:Claude、GPT-5、智谱GLM-4.6排名并列全球第一
11月13日,据财联社报道,全球AI模型排行榜LMArena最新发布编程与代码生成模型排名(Coding Arena),美国Anthropic的Claude、GPT-5与中国智谱GLM-4.6并列全球第一。Coding模型专为编程任务优化,可帮助开发者高效编写、调试和优化代码,已成为全球科技巨头与初创企业的战略焦点。这一排名反映了当前AI在编程领域的顶尖水平,显示出中美两国在AI技术上的强劲竞争力。(澎湃新闻)
数字墨迹
11-13 21:22:57
Claude
LMArena
智谱GLM-4.6
分享至
打开微信扫一扫
内容投诉
生成图片
刚刚,全球AI生图新王诞生!腾讯混元图像3.0登顶了
2025年10月5日,腾讯混元图像3.0登顶全球AI文生图榜单首位,超越谷歌Nano Banana、字节Seedream等强劲对手,在国际权威竞技场LMArena的26个大模型中稳居第一。该模型采用原生多模态架构,参数规模达80B,是目前最大的开源生图模型,支持文字、图片、视频与音频多模态处理。其语义理解能力大幅提升,可生成高质量图像,如中秋节海报、火焰猫咪等创意作品,并在多项技术指标上领先行业。此外,混元3.0开源且提供多种资源链接,引发全民体验热潮,热度持续飙升。
智能维度跳跃
10-05 15:21:12
LMArena榜单
文生图模型
腾讯混元图像3.0
分享至
打开微信扫一扫
内容投诉
生成图片
腾讯混元图像 3.0 模型登顶 LMArena 全球“盲测”第一
10月5日,腾讯混元图像3.0模型在国际大模型竞技场LMArena的文生图榜单中,凭借全球用户的“盲测”投票,超越26个顶尖模型荣登第一。LMArena由美国加州大学伯克利分校推出,采用基于人类真实偏好的匿名投票机制,是目前最权威的AI模型评估平台之一。混元图像3.0于9月28日发布,现已开放文生图能力,并计划后续推出图生图、图像编辑等功能。该模型不仅能生成复杂文本、漫画、表情包和科普插画,还能大幅提升视觉创作者效率,使无美术功底的用户也能轻松创作生动内容。
心智奇点
10-05 12:18:41
LMArena盲测
文生图能力
腾讯混元图像3.0
分享至
打开微信扫一扫
内容投诉
生成图片
AI圈顶级榜单曝黑幕,Meta作弊刷分实锤?
近日,AI大模型排行榜LMArena被曝出可能存在作弊刷分行为,多家机构联合发表论文指控少数大厂利用漏洞操纵排名。论文指出,Meta等公司在测试阶段筛选最优模型,导致排行榜结果失真。OpenAI创始人Andrej Karpathy也分享个人体验,质疑某些模型排名与其实际表现不符。LMArena回应称论文存在事实错误,强调其政策公开透明,并反对将预发布模型纳入排名。事件引发对榜单公信力的广泛讨论,有人建议转向新平台OpenRouterAI,以更真实反映模型性能。LMArena由高校学生发起,初衷虽佳,但随着管理权交接,透明性和公平性受到挑战。此事件发生在LMArena筹备融资之际,可能对其未来发展产生影响。
量子思考者
05-01 16:33:33
LMArena
作弊刷分
排行榜
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序