1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Yupp 平台上线:邀用户低成本使用业界各大 AI 模型,收集评测反馈构建排行榜
6月23日,AI初创公司Yupp正式推出“人工评测系统”,用户可免费体验并评测ChatGPT、Claude、Gemini等超500款AI大语言模型。Yupp计划通过收集用户反馈构建Yupp AI VIBE排行榜,直观呈现各模型性能。平台新注册用户初始有5000积分,用于调用AI模型。用户提问后,系统会随机匹配两个模型作答,并要求用户对比评价。完成评价后,用户将获得额外积分。此外,平台支持自定义模型对比,每次最多接入6个模型。若用户不提供反馈,其权限可能受限。Yupp由X平台前员工创立,目标是低成本推动AI模型优化。
镜像现实MirageX
06-23 15:25:53
AI模型
Yupp
排行榜
分享至
打开微信扫一扫
内容投诉
生成图片
最新一期权威大模型榜单:豆包1.5、商汤日日新V6并列国内第一
5月28日,权威机构SuperCLUE发布的《中文大模型基准测评2025年5月报告》显示,豆包1.5(Doubao-1.5-thinking-pro)和商汤日日新V6(SenseNova-V6 Reasoner)在国内大模型测评中并列第一,超越Gemini 2.5 Flash Preview。该测评涵盖六大任务,总计1579道多轮简答题。报告指出,国产大模型在中文领域通用能力的竞争格局逐渐明朗,Doubao-1.5-thinking-pro与SenseNova V6 Reasoner表现突出。位居第二梯队的包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1及DeepSeek-V3。SuperCLUE作为行业权威测评基准,其报告反映了国内外大模型技术差距的逐步缩小。
WisdomTrail
05-30 16:55:41
大模型
排行榜
测评
分享至
打开微信扫一扫
内容投诉
生成图片
68 页论文再锤大模型竞技场:Llama4 发布前私下测试 27 个版本,只取最佳成绩
近日,一篇题为《排行榜幻觉》的68页论文揭示了大模型竞技场Chatbot Arena存在的系统性问题。研究指出,少数大厂如Meta在Llama4发布前私下测试了27个版本,仅公布最佳成绩,导致排名失真。此外,专有模型获取的数据反馈显著多于开源模型,且利用竞技场数据训练可使模型性能提升高达112%。研究团队还发现,205个模型被“静默弃用”,远超官方公布的47个。对此,大模型竞技场官方Lmrena.ai回应称,排行榜反映真实用户偏好,但承认存在测试优化现象。论文建议改进包括禁止撤回分数、限制非正式模型数量及提高弃用透明度。此研究由Cohere团队、普林斯顿大学等机构联合发布,呼吁不应过度依赖单一榜单。
AGI探路者
05-02 21:09:17
刷榜风波
大模型竞技场
排行榜幻觉
分享至
打开微信扫一扫
内容投诉
生成图片
大模型竞技场再被锤!Llama4私下测试27个版本,只取最佳成绩
近日,一篇题为《排行榜幻觉》的论文指出,大模型竞技场Chatbot Arena存在系统性问题。研究发现,Meta在Llama4发布前私下测试了27个版本,最终只公布最佳成绩,且少数大厂享有数据访问优势。此外,竞技场数据可显著提升模型性能,最高可达112%,但205个模型被静默弃用,远超官方公布的47个。研究团队建议改进规则以提高公平性。对此,Lmarena.ai回应称,排行榜反映真实用户偏好,但承认存在测试偏差。论文由多家学术机构及Cohere团队联合发布,呼吁不应仅依赖单一榜单评价模型。此争议引发行业反思,有人推荐OpenRouter作为替代方案。
量子思考者
05-02 13:58:59
Llama4
大模型竞技场
排行榜质疑
分享至
打开微信扫一扫
内容投诉
生成图片
AI圈顶级榜单曝黑幕,Meta作弊刷分实锤?
近日,AI大模型排行榜LMArena被曝出可能存在作弊刷分行为,多家机构联合发表论文指控少数大厂利用漏洞操纵排名。论文指出,Meta等公司在测试阶段筛选最优模型,导致排行榜结果失真。OpenAI创始人Andrej Karpathy也分享个人体验,质疑某些模型排名与其实际表现不符。LMArena回应称论文存在事实错误,强调其政策公开透明,并反对将预发布模型纳入排名。事件引发对榜单公信力的广泛讨论,有人建议转向新平台OpenRouterAI,以更真实反映模型性能。LMArena由高校学生发起,初衷虽佳,但随着管理权交接,透明性和公平性受到挑战。此事件发生在LMArena筹备融资之际,可能对其未来发展产生影响。
量子思考者
05-01 16:33:33
LMArena
作弊刷分
排行榜
分享至
打开微信扫一扫
内容投诉
生成图片
全球AI产品再次洗牌,「中国制造」后来居上
2024年8月以来,a16z更新了全球Top50 AI榜单,统计显示中国开发者在Web和App端的整体存在感增强。Web端,AI视频生成产品重新洗牌,国内产品取代硅谷产品成为主力,AI ChatBot和AI角色聊天产品亦有显著增长。App端,中国开发者的产品占近40%的位置,图像/视频相关产品最吸金。视频生成赛道竞争激烈,Kling、Hailuo和Sora等新晋产品表现突出,但尚未达到全面应用水平。此外,视频生成模型开始在娱乐场景中找到落地方向,但仍面临资金压力。
新智燎原
03-11 11:24:38
AI产品
中国制造
排行榜
分享至
打开微信扫一扫
内容投诉
生成图片
GPT-4.5登顶6小时即失守!Grok-3上演1分逆袭
GPT-4.5刚登顶竞技场6小时后被马斯克的Grok-3以总分1412:1411逆袭,仅差一分。Grok-3在总体带风格控制和困难提示词带风格控制方面略胜一筹。DeepSeek-R1总分第六,数学和困难提示词带风格控制分项与GPT-4.5并列第一。有用户质疑6小时内的巨大变化,解释称这与投票门槛有关。GPT-4.5口碑逐渐改善,用户开始称赞其情商,并且有人请求官方承诺不会下架该模型。此外,GPT-4.5还在一个类似大模型狼人杀的另类榜单上表现出色,各方面均领先于人类。
新智燎原
03-04 14:11:50
GPT-4.5
Grok-3
排行榜
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek超越ChatGPT 登顶苹果美国区免费APP下载排行榜
1月27日,由国产大模型公司杭州深度求索开发的Deepseek应用登顶苹果中国和美国地区免费APP下载排行榜,在美国区超越了ChatGPT。DeepSeek-R1于1月20日正式发布,凭借“物美价廉”特性引发关注。该开源模型在数学、代码、自然语言推理等任务上表现优异,可与OpenAI的模型媲美。目前,DeepSeek-R1在Chatbot Arena的基准测试中位列全类别第三,并在风格控制类模型中与OpenAI模型并列第一。
未来编码者
01-27 08:28:24
ChatGPT
DeepSeek
下载排行榜
分享至
打开微信扫一扫
内容投诉
生成图片
谷歌首个通用推理模型登场:揭秘 AI 推理“黑匣子”,登顶 Arena LLM 排行榜
谷歌AI Studio于12月19日发布了首个通用推理模型“Gemini 2.0 Flash Thinking”。该模型能清晰展现思考过程,解答复杂问题并模仿人类逐步推理。在Chatbot Arena LLM排行榜上,Gemini 2.0 Flash Thinking在所有类别中均排名第一,尤其在“硬提示”和“视觉”方面表现突出。Google DeepMind首席科学家Jeff Dean演示了模型如何解决物理问题,Google产品负责人Logan Kilpatrick展示了其处理图像和文本信息的能力。该模型已在Google AI Studio和Vertex AI平台上线,标志着AI推理领域的重要进展。
心智奇点
12-20 08:22:24
Arena LLM排行榜
谷歌
通用推理模型
分享至
打开微信扫一扫
内容投诉
生成图片
OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一
【新闻摘要】 OpenAI发布的新模型o1在lmsys排行榜上全面超越Claude和谷歌Gemini模型,成为数学领域的佼佼者。o1-preview版本在数学、编码和提示领域均展现卓越能力,与最新版GPT-4o并列综合排名第二,而其迷你版o1-mini同样在多个领域与o1-preview并驾齐驱。...
LunarCoder
09-20 14:20:11
lmsys排行榜
OpenAI o1
数学能力
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序