2025年,大模型竞争进入新阶段,但基准测试公信力下降,实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示,许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司,Meta等私下多次测试模型。此外,数据集污染和刷榜现象普遍,导致基准测试不再反映真实性能,成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷,过于静态和单一化。新的动态测试集逐渐兴起,企业更多依赖私有基准测试集,关注模型稳定性、迭代速度和开源程度。赵海教授指出,未来AGI系统将无需依赖人工标注,而主流大模型的核心问题仍是幻觉和指令遵循能力。
原文链接
本文链接:https://kx.umi6.com/article/29646.html
转载请注明文章出处
相关推荐
换一换
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
阿里正陷入全面竞争的陷阱
2025-11-25 16:57:43
谷歌“通吃”AI
2025-11-01 10:23:33
全球富豪榜映射AI变迁?甲骨文埃里森身家暴跌 谷歌两元老跻身前五
2025-11-22 10:12:03
马斯克最新预言:AI可在三年内终结美国“债务危机”
2025-12-01 16:24:09
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
快手怎么「隐身」了?
2025-12-01 16:19:37
Take-Two CEO 泽尔尼克:AI 不可能生成一款堪比《GTA》的游戏
2025-10-30 08:29:35
华为的「荣耀」
2025-10-30 15:47:28
毕马威:AI已经渗透到药物研发的各个环节
2025-10-15 18:45:41
融360叶大青新角色:转向AI、金融与全球创新投资布局
2025-11-05 09:55:42
AI 没有杀死的网文平台,被重新定义
2025-11-19 17:27:32
智谱中标679.8万元水电大模型项目
2025-11-05 20:23:03
578 文章
365516 浏览
24小时热文
更多
-
2025-12-07 20:45:46 -
2025-12-07 18:40:26 -
2025-12-07 18:39:34