首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
模型胡乱论证“1+1=3”,评测系统却浑然不觉甚至疯狂打Call?是时候给奖励模型打个分了!
来自清华大学、复旦大学和香港科技大学的研究团队,联合发布基准测试RM-BENCH,对大语言模型的“认知敏锐度”发出挑战。
RM-BENCH首次系统性构建了针对奖励模型的评测基准,直击其“形式大于内容”的评估困境。相关论文已被ICLR 2025 Oral接收,评测集已被AGI-Eval评测社区独家托管,结果随模型发布自动更新。
ChatGPT、Claude和OpenAI o1等大语言模型的成功,很大程度依赖于人类反馈强化学习(RLHF)和推理缩放定律,而奖励模型在这两种技术中起关键作用。然而,现有奖励模型的基准测试仍未充分探索。
以往方法难以评估模型对内容细微变化的敏感度及对风格偏差的处理能力,也无法很好地反映与策略模型性能的相关性。RM-BENCH提出全新基准,评估奖励模型区分微妙变化和抵抗风格偏差的能力,挑战语言模型的“认知敏锐度”。
RM-BENCH涵盖聊天、代码、数学和安全四大领域,构建(x, yc, yr)元组数据集,确保数据质量。团队还生成风格控制变体,破解“形式大于内容”魔咒,设计Style-Substance Eval Matrix评估风格偏差。
实验显示,最先进模型如Skywork-Reward-Llama-3.1-8B在RM-BENCH上的平均准确率仅70.1%,困难准确率更低至46.6%。DPO模型表现优于序列分类器,与策略模型性能高度相关,成为更优选择。
团队希望RM-BENCH能推动社区审视奖励模型基准设计,激发未来开发更精准的评估体系。论文和代码链接已公开。
原文链接
本文链接:https://kx.umi6.com/article/18534.html
转载请注明文章出处
相关推荐
.png)
换一换
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
院士领衔万字长文,全面系统梳理多模态LLM对齐算法
2025-03-23 13:05:56
首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”
2025-05-13 16:54:31
403 文章
53681 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13