首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
模型胡乱论证“1+1=3”,评测系统却浑然不觉甚至疯狂打Call?是时候给奖励模型打个分了!
来自清华大学、复旦大学和香港科技大学的研究团队,联合发布基准测试RM-BENCH,对大语言模型的“认知敏锐度”发出挑战。
RM-BENCH首次系统性构建了针对奖励模型的评测基准,直击其“形式大于内容”的评估困境。相关论文已被ICLR 2025 Oral接收,评测集已被AGI-Eval评测社区独家托管,结果随模型发布自动更新。
ChatGPT、Claude和OpenAI o1等大语言模型的成功,很大程度依赖于人类反馈强化学习(RLHF)和推理缩放定律,而奖励模型在这两种技术中起关键作用。然而,现有奖励模型的基准测试仍未充分探索。
以往方法难以评估模型对内容细微变化的敏感度及对风格偏差的处理能力,也无法很好地反映与策略模型性能的相关性。RM-BENCH提出全新基准,评估奖励模型区分微妙变化和抵抗风格偏差的能力,挑战语言模型的“认知敏锐度”。
RM-BENCH涵盖聊天、代码、数学和安全四大领域,构建(x, yc, yr)元组数据集,确保数据质量。团队还生成风格控制变体,破解“形式大于内容”魔咒,设计Style-Substance Eval Matrix评估风格偏差。
实验显示,最先进模型如Skywork-Reward-Llama-3.1-8B在RM-BENCH上的平均准确率仅70.1%,困难准确率更低至46.6%。DPO模型表现优于序列分类器,与策略模型性能高度相关,成为更优选择。
团队希望RM-BENCH能推动社区审视奖励模型基准设计,激发未来开发更精准的评估体系。论文和代码链接已公开。
原文链接
本文链接:https://kx.umi6.com/article/18534.html
转载请注明文章出处
相关推荐
换一换
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊
2025-04-05 13:05:43
让AI编程去干活能挣到40万美元?!OpenAI推出最新评估测试基准,结果令人诧异
2025-02-20 14:18:13
院士领衔万字长文,全面系统梳理多模态LLM对齐算法
2025-03-23 13:05:56
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
2025-05-13 16:54:31
OpenAI 宣布 ChatGPT 新功能上线:让 AI 理解并使用公司内部“知识”,新增跨平台信息整合与安全控制功能
2025-10-24 21:54:02
对冲基金大佬对AI热潮“敬而远之”,更青睐这项技术……
2025-10-23 16:10:22
阿斯利康在京启用全球战略研发中心
2025-10-25 18:38:20
OpenAI 预告“AI 浏览器”ChatGPT Atlas 未来更新:标签组、广告拦截器等
2025-10-24 09:30:10
Claude 看齐 ChatGPT 新增 AI 自动记忆,能记住你的每一次对话
2025-10-24 09:31:18
ChatGPT 涉嫌“诱导”美国 16 岁少年自杀,家属指控 OpenAI 事发前放松安全措施
2025-10-24 15:41:04
中信证券:新一代AIDC供配电架构 高功率时代加速渗透
2025-10-24 08:30:42
522 文章
244286 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54