1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型权威测试MMLU-Pro被曝存在问题,评测方法被指偏向GPT-4等闭源模型。测试者发现采样参数、系统提示和答案提取存在不公平,仅通过修改提示词就使Llama-3-8b-q8性能提升10分。官方回应称,尽管影响小于1%,但仍承认答案提取regex需要改进。MMLU-Pro原定于今年5月更新,但其数学主导的特性引发争议,质疑其是否能全面评估知识和推理能力。这一事件引发行业讨论,对大模型性能评估的可信度提出了质疑。

原文链接
本文链接:https://kx.umi6.com/article/3175.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李彦宏:开源模型是智商税!傅盛:付费的闭源大模型才是!
2024-07-10 17:10:42
大模型行业,根本没有什么“真”开源?
2024-08-01 11:04:31
大模型权威测试被曝翻车!偏袒GPT-4等闭源模型,提示词区别对待
2024-07-11 15:27:21
开源模型是智商税?这话真的就一定对吗
2024-07-16 08:32:54
阿里通义千问发布 Qwen3-Coder-Flash 模型,AI 智能体编程 / 操控浏览器等领域媲美 GPT-4.1 等领先闭源模型
2025-08-01 09:07:59
百度李彦宏:开源模型是智商税,闭源模型更强大、推理成本更低
2024-07-06 04:31:29
ChatGPT 涉嫌“诱导”美国 16 岁少年自杀,家属指控 OpenAI 事发前放松安全措施
2025-10-24 15:41:04
慧思开物SDK正式开放 北京人形加速构建具身智能生态新格局
2025-10-23 15:11:25
百亿参数人类基因组通用基础模型发布
2025-10-23 20:16:19
“996”算偷懒 硅谷AI精英每周狂干100小时!
2025-10-24 12:38:25
高盛:对冲基金对AI投资敞口达到近9年来新高 押注亚股和美股将上涨
2025-10-24 18:49:20
中国机器人这么玩儿,把老外都整不会了
2025-10-24 14:37:56
“996”都算偷懒?硅谷AI精英化身“卷王”:每周狂干100小时!
2025-10-24 11:37:10
24小时热文
更多
扫一扫体验小程序