1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
大模型权威测试被曝翻车!偏袒GPT-4等闭源模型,提示词区别对待
大模型权威测试MMLU-Pro被曝存在问题,评测方法被指偏向GPT-4等闭源模型。测试者发现采样参数、系统提示和答案提取存在不公平,仅通过修改提示词就使Llama-3-8b-q8性能提升10分。官方回应称,尽管影响小于1%,但仍承认答案提取regex需要改进。MMLU-Pro原定于今年5月更新,但其数学主导的特性引发争议,质疑其是否能全面评估知识和推理能力。这一事件引发行业讨论,对大模型性能评估的可信度提出了质疑。
小阳哥
07-11 15:27:21
MMLU-Pro
不公平
闭源模型
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序