1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年,大模型竞争进入新阶段,但基准测试公信力下降,实际使用常令人失望。业内揭露了基准测试作弊、测试集泄露和排行榜操纵等问题。Scale AI 2024年11月论文显示,许多开源模型在新测试基准下的表现大幅下滑。Cohere 2025年4月指出知名评测平台偏向大公司,Meta等私下多次测试模型。此外,数据集污染和刷榜现象普遍,导致基准测试不再反映真实性能,成为厂商营销工具。专家认为现有基准测试体系存在结构性缺陷,过于静态和单一化。新的动态测试集逐渐兴起,企业更多依赖私有基准测试集,关注模型稳定性、迭代速度和开源程度。赵海教授指出,未来AGI系统将无需依赖人工标注,而主流大模型的核心问题仍是幻觉和指令遵循能力。

原文链接
本文链接:https://kx.umi6.com/article/29646.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
传统软件业,集体跌下斩杀线
2026-02-07 09:53:37
OpenClaw火出天际 工程院院士王坚:AI龙虾价格很快打下来
2026-03-08 19:34:04
Manus补上一块短板,但Meta AI的短板实在太多了
2026-01-02 18:29:42
文科生绝地反击
2026-02-05 02:18:35
时薪 3500,4 万人抢着给 AI 打工
2026-02-06 03:30:07
Manus救不了Meta
2026-01-08 20:35:12
2025年AI期末考试,谷歌又考了全年级第一
2026-02-07 09:50:11
中国企业调用大模型日均达37万亿tokens
2026-02-24 13:54:18
不整虚的!中美AI同步加速:47天30次更新,中国AI的最强主场究竟在哪?
2026-02-22 18:50:22
AI进入「拼爹」的时代
2026-01-08 20:32:52
明年手机PC全线涨价!这个锅 AI必须得背
2025-12-29 18:36:46
一口气集齐老黄苏妈英特尔,还得是AI,还得是联想
2026-01-09 15:20:54
备案平均时长缩至2个月 目前已有216款大模型在京完成备案
2026-02-28 19:46:01
24小时热文
更多
扫一扫体验小程序