2025年11月8日,一项由牛津大学、华盛顿大学等机构发表的国际研究指出,目前大多数大语言模型(LLM)测试标准存在严重方法论问题,难以客观衡量AI进步。科学家分析了2018年至2024年间顶级AI学术会议的445篇基准测试论文,并邀请29名专家评估,发现这些论文普遍存在重大缺陷。例如,78%的基准未能清晰定义“推理”、“对齐”等关键术语,61%的测试评估复合技能但缺乏单独分析,93%使用便利抽样且38%复用数据,导致结果失真。此外,超80%的研究依赖“完全匹配率”,仅16%采用统计校验方法,进一步削弱可信度。团队建议改进测试目标定义、防止数据污染并加强统计分析,以提升研究准确性。
原文链接
本文链接:https://kx.umi6.com/article/28034.html
转载请注明文章出处
相关推荐
换一换
Salesforce 首席执行官:大语言模型可能已接近技术上限,AI 的未来是智能体
2024-11-25 10:07:47
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
2025-06-01 13:19:53
DeepSeek使用技巧,你收藏这一篇就够了
2025-02-07 21:09:11
DeepSeek之后,每一家公司都是Agent
2025-04-02 21:46:19
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
顺丰发布“丰语”大语言模型:摘要准确率超 95%,号称物流垂域能力超越通用模型
2024-09-10 19:32:12
大模型来了,你要裁员吗?
2024-07-12 08:41:18
UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透
2025-01-30 20:35:59
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB
2024-10-23 16:40:26
启明创投发布2024生成式AI十大展望
2024-07-07 23:11:55
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
英国格拉斯哥大学哲学研究人员谈“AI 幻觉”:用“胡说八道”来形容更准确
2024-06-12 11:12:49
575 文章
298916 浏览
24小时热文
更多
-
2025-11-08 23:04:14 -
2025-11-08 23:03:10 -
2025-11-08 23:01:06