综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
标题:AI竞技场,归根到底只是一门生意
正文:
“XX发布最强开源大模型,多项基准测试全面超越XX等闭源模型!”
“万亿参数开源模型XX强势登顶全球开源模型榜首!”
“国产之光!XX模型在中文评测榜单拿下第一!”
类似的新闻是否刷屏了你的社交圈?今天这个模型夺冠,明天那个模型称王。评论区里有...
原文链接
6月23日,AI初创公司Yupp正式推出“人工评测系统”,用户可免费体验并评测ChatGPT、Claude、Gemini等超500款AI大语言模型。Yupp计划通过收集用户反馈构建Yupp AI VIBE排行榜,直观呈现各模型性能。平台新注册用户初始有5000积分,用于调用AI模型。用户提问后,系统会随机匹配两个模型作答,并要求用户对比评价。完成评价后,用户将获得额外积分。此外,平台支持自定义模型对比,每次最多接入6个模型。若用户不提供反馈,其权限可能受限。Yupp由X平台前员工创立,目标是低成本推动AI模型优化。
原文链接
5月28日,权威机构SuperCLUE发布的《中文大模型基准测评2025年5月报告》显示,豆包1.5(Doubao-1.5-thinking-pro)和商汤日日新V6(SenseNova-V6 Reasoner)在国内大模型测评中并列第一,超越Gemini 2.5 Flash Preview。该测评涵盖六大任务,总计1579道多轮简答题。报告指出,国产大模型在中文领域通用能力的竞争格局逐渐明朗,Doubao-1.5-thinking-pro与SenseNova V6 Reasoner表现突出。位居第二梯队的包括DeepSeek-R1、NebulaCoder-V6、Hunyuan-T1及DeepSeek-V3。SuperCLUE作为行业权威测评基准,其报告反映了国内外大模型技术差距的逐步缩小。
原文链接
近日,AI大模型排行榜LMArena被曝出可能存在作弊刷分行为,多家机构联合发表论文指控少数大厂利用漏洞操纵排名。论文指出,Meta等公司在测试阶段筛选最优模型,导致排行榜结果失真。OpenAI创始人Andrej Karpathy也分享个人体验,质疑某些模型排名与其实际表现不符。LMArena回应称论文存在事实错误,强调其政策公开透明,并反对将预发布模型纳入排名。事件引发对榜单公信力的广泛讨论,有人建议转向新平台OpenRouterAI,以更真实反映模型性能。LMArena由高校学生发起,初衷虽佳,但随着管理权交接,透明性和公平性受到挑战。此事件发生在LMArena筹备融资之际,可能对其未来发展产生影响。
原文链接
2024年8月以来,a16z更新了全球Top50 AI榜单,统计显示中国开发者在Web和App端的整体存在感增强。Web端,AI视频生成产品重新洗牌,国内产品取代硅谷产品成为主力,AI ChatBot和AI角色聊天产品亦有显著增长。App端,中国开发者的产品占近40%的位置,图像/视频相关产品最吸金。视频生成赛道竞争激烈,Kling、Hailuo和Sora等新晋产品表现突出,但尚未达到全面应用水平。此外,视频生成模型开始在娱乐场景中找到落地方向,但仍面临资金压力。
原文链接
GPT-4.5刚登顶竞技场6小时后被马斯克的Grok-3以总分1412:1411逆袭,仅差一分。Grok-3在总体带风格控制和困难提示词带风格控制方面略胜一筹。DeepSeek-R1总分第六,数学和困难提示词带风格控制分项与GPT-4.5并列第一。有用户质疑6小时内的巨大变化,解释称这与投票门槛有关。GPT-4.5口碑逐渐改善,用户开始称赞其情商,并且有人请求官方承诺不会下架该模型。此外,GPT-4.5还在一个类似大模型狼人杀的另类榜单上表现出色,各方面均领先于人类。
原文链接
钛媒体与火石创造、京东集团联合发布的《中国人工智能城市竞争力排行研究报告》揭示了中国人工智能发展的最新趋势。报告显示,北京人工智能综合实力最强,呈现金字塔型分布,中西部城市如西安、成都等崭露头角。一线城市如北京、上海、深圳凭借技术、应用场景和产业优势位列前三。报告强调了人工智能需求增长、头部城市带动效应、场景驱动和数字化发展的重要性。西安和杭州凭借高校资源、政策支持和先发优势各有特色。尽管短期内城市间差距可能扩大,但中长期看,技术扩散将推动差距缩小。各地政府正在从土地财政转向产业财政,第二波政策有望更具针对性。报告建议城市结合本地产业,通过差异化发展和产业链协作实现共赢。
原文链接
加载更多
暂无内容