建议你不要再相信AI基准测试，排行榜已经没啥公信力了

2025-12-04 12:18:33

元界筑梦师

发布在

快讯

阅读：1460

2025年，大模型竞争进入新阶段，但基准测试公信力下降，实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示，许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司，Meta等私下多次测试模型。此外，数据集污染和刷榜现象普遍，导致基准测试不再反映真实性能，成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷，过于静态和单一化。新的动态测试集逐渐兴起，企业更多依赖私有基准测试集，关注模型稳定性、迭代速度和开源程度。赵海教授指出，未来AGI系统将无需依赖人工标注，而主流大模型的核心问题仍是幻觉和指令遵循能力。

原文链接

本文链接：https://kx.umi6.com/article/29646.html

转载请注明文章出处