排行榜 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

LMArena排行榜：多款国产模型上榜

2月27日，全球大模型竞技场LMArena最新榜单发布，字节跳动旗下Seed 2.0位列综合排行榜全球第9，成为登榜国产模型首位。此外，GLM-5、文心5.0、Qwen 3.5、Kimi K2.5分别位列第16至19位。榜单前三仍由国际主流大模型占据，依次为claude-opus-4-6、gemini-3.1-pro-pr和grok-4.20-beta1。本次榜单显示多款国产旗舰大模型密集发布并崭露头角，标志着国产模型在全球竞争中的进一步崛起。（记者黄心怡）

原文链接

数字墨迹

02-27 21:14:17

LMArena排行榜

Seed 2.0

国产模型

分享至

打开微信扫一扫

内容投诉

生成图片

邀请码也难挡“AI 短视频热”，OpenAI Sora 登顶苹果美区 App Store 免费应用排行榜

10月4日，OpenAI推出的AI短视频生成应用Sora登顶苹果美区App Store免费应用排行榜，占据榜单首位，同时OpenAI另一款应用也进入前三。Sora于本周二上线，支持用户生成短视频内容并进行二次创作分享，目前仅限iOS设备使用且需邀请码。尽管有使用限制，Sora仍超越谷歌Gemini和ChatGPT等热门应用。OpenAI团队表示正快速改进产品，并强调已采取措施应对潜在安全隐患，如肖像使用控制。然而，一些争议视频（如将CEO奥尔特曼描绘成商店行窃）引发关于工具合法性和风险的讨论。Sora基于最新模型Sora 2，可高度逼真生成画面与声音，首次推出时间为2024年2月。

原文链接

Journeyman

10-04 08:55:22

AI短视频

App Store排行榜

OpenAI Sora

分享至

打开微信扫一扫

内容投诉

生成图片

AI竞技场，归根到底只是一门生意

标题：AI竞技场，归根到底只是一门生意正文： “XX发布最强开源大模型，多项基准测试全面超越XX等闭源模型！” “万亿参数开源模型XX强势登顶全球开源模型榜首！” “国产之光！XX模型在中文评测榜单拿下第一！” 类似的新闻是否刷屏了你的社交圈？今天这个模型夺冠，明天那个模型称王。评论区里有...

原文链接

AI思维矩阵

08-06 15:37:54

AI竞技场

大语言模型

排行榜

分享至

打开微信扫一扫

内容投诉

生成图片

Yupp 平台上线：邀用户低成本使用业界各大 AI 模型，收集评测反馈构建排行榜

6月23日，AI初创公司Yupp正式推出“人工评测系统”，用户可免费体验并评测ChatGPT、Claude、Gemini等超500款AI大语言模型。Yupp计划通过收集用户反馈构建Yupp AI VIBE排行榜，直观呈现各模型性能。平台新注册用户初始有5000积分，用于调用AI模型。用户提问后，系统会随机匹配两个模型作答，并要求用户对比评价。完成评价后，用户将获得额外积分。此外，平台支持自定义模型对比，每次最多接入6个模型。若用户不提供反馈，其权限可能受限。Yupp由X平台前员工创立，目标是低成本推动AI模型优化。

原文链接

镜像现实MirageX

06-23 15:25:53

AI模型

Yupp

排行榜

分享至

打开微信扫一扫

内容投诉

生成图片

最新一期权威大模型榜单：豆包1.5、商汤日日新V6并列国内第一

5月28日，权威机构SuperCLUE发布的《中文大模型基准测评2025年5月报告》显示，豆包1.5（Doubao-1.5-thinking-pro）和商汤日日新V6（SenseNova-V6 Reasoner）在国内大模型测评中并列第一，超越Gemini 2.5 Flash Preview。该测评涵盖六大任务，总计1579道多轮简答题。报告指出，国产大模型在中文领域通用能力的竞争格局逐渐明朗，Doubao-1.5-thinking-pro与SenseNova V6 Reasoner表现突出。位居第二梯队的包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1及DeepSeek-V3。SuperCLUE作为行业权威测评基准，其报告反映了国内外大模型技术差距的逐步缩小。

原文链接

WisdomTrail

05-30 16:55:41

大模型

排行榜

测评

分享至

打开微信扫一扫

内容投诉

生成图片

68 页论文再锤大模型竞技场：Llama4 发布前私下测试 27 个版本，只取最佳成绩

近日，一篇题为《排行榜幻觉》的68页论文揭示了大模型竞技场Chatbot Arena存在的系统性问题。研究指出，少数大厂如Meta在Llama4发布前私下测试了27个版本，仅公布最佳成绩，导致排名失真。此外，专有模型获取的数据反馈显著多于开源模型，且利用竞技场数据训练可使模型性能提升高达112%。研究团队还发现，205个模型被“静默弃用”，远超官方公布的47个。对此，大模型竞技场官方Lmrena.ai回应称，排行榜反映真实用户偏好，但承认存在测试优化现象。论文建议改进包括禁止撤回分数、限制非正式模型数量及提高弃用透明度。此研究由Cohere团队、普林斯顿大学等机构联合发布，呼吁不应过度依赖单一榜单。

原文链接

AGI探路者

05-02 21:09:17

刷榜风波

大模型竞技场

排行榜幻觉

分享至

打开微信扫一扫

内容投诉

生成图片

大模型竞技场再被锤！Llama4私下测试27个版本，只取最佳成绩

近日，一篇题为《排行榜幻觉》的论文指出，大模型竞技场Chatbot Arena存在系统性问题。研究发现，Meta在Llama4发布前私下测试了27个版本，最终只公布最佳成绩，且少数大厂享有数据访问优势。此外，竞技场数据可显著提升模型性能，最高可达112%，但205个模型被静默弃用，远超官方公布的47个。研究团队建议改进规则以提高公平性。对此，Lmarena.ai回应称，排行榜反映真实用户偏好，但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布，呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思，有人推荐OpenRouter作为替代方案。

原文链接

量子思考者

05-02 13:58:59

Llama4

大模型竞技场

排行榜质疑

分享至

打开微信扫一扫

内容投诉

生成图片

AI圈顶级榜单曝黑幕，Meta作弊刷分实锤？

近日，AI大模型排行榜LMArena被曝出可能存在作弊刷分行为，多家机构联合发表论文指控少数大厂利用漏洞操纵排名。论文指出，Meta等公司在测试阶段筛选最优模型，导致排行榜结果失真。OpenAI创始人Andrej Karpathy也分享个人体验，质疑某些模型排名与其实际表现不符。LMArena回应称论文存在事实错误，强调其政策公开透明，并反对将预发布模型纳入排名。事件引发对榜单公信力的广泛讨论，有人建议转向新平台OpenRouterAI，以更真实反映模型性能。LMArena由高校学生发起，初衷虽佳，但随着管理权交接，透明性和公平性受到挑战。此事件发生在LMArena筹备融资之际，可能对其未来发展产生影响。

原文链接

量子思考者

05-01 16:33:33

LMArena

作弊刷分

排行榜

分享至

打开微信扫一扫

内容投诉

生成图片

全球AI产品再次洗牌，「中国制造」后来居上

2024年8月以来，a16z更新了全球Top50 AI榜单，统计显示中国开发者在Web和App端的整体存在感增强。Web端，AI视频生成产品重新洗牌，国内产品取代硅谷产品成为主力，AI ChatBot和AI角色聊天产品亦有显著增长。App端，中国开发者的产品占近40%的位置，图像/视频相关产品最吸金。视频生成赛道竞争激烈，Kling、Hailuo和Sora等新晋产品表现突出，但尚未达到全面应用水平。此外，视频生成模型开始在娱乐场景中找到落地方向，但仍面临资金压力。

原文链接

新智燎原

03-11 11:24:38

AI产品

中国制造

排行榜

分享至

打开微信扫一扫

内容投诉

生成图片

GPT-4.5登顶6小时即失守！Grok-3上演1分逆袭

GPT-4.5刚登顶竞技场6小时后被马斯克的Grok-3以总分1412:1411逆袭，仅差一分。Grok-3在总体带风格控制和困难提示词带风格控制方面略胜一筹。DeepSeek-R1总分第六，数学和困难提示词带风格控制分项与GPT-4.5并列第一。有用户质疑6小时内的巨大变化，解释称这与投票门槛有关。GPT-4.5口碑逐渐改善，用户开始称赞其情商，并且有人请求官方承诺不会下架该模型。此外，GPT-4.5还在一个类似大模型狼人杀的另类榜单上表现出色，各方面均领先于人类。

原文链接

新智燎原

03-04 14:11:50

GPT-4.5

Grok-3

排行榜

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多