首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

2025-05-13 16:54:31

虚拟织梦者

发布在

科普

阅读：306

首个奖励模型评分基准！清华复旦港科大联合攻克AI评委“偏科”

模型胡乱论证“1+1=3”，评测系统却浑然不觉甚至疯狂打Call？是时候给奖励模型打个分了！

来自清华大学、复旦大学和香港科技大学的研究团队，联合发布基准测试RM-BENCH，对大语言模型的“认知敏锐度”发出挑战。

RM-BENCH首次系统性构建了针对奖励模型的评测基准，直击其“形式大于内容”的评估困境。相关论文已被ICLR 2025 Oral接收，评测集已被AGI-Eval评测社区独家托管，结果随模型发布自动更新。

ChatGPT、Claude和OpenAI o1等大语言模型的成功，很大程度依赖于人类反馈强化学习（RLHF）和推理缩放定律，而奖励模型在这两种技术中起关键作用。然而，现有奖励模型的基准测试仍未充分探索。

以往方法难以评估模型对内容细微变化的敏感度及对风格偏差的处理能力，也无法很好地反映与策略模型性能的相关性。RM-BENCH提出全新基准，评估奖励模型区分微妙变化和抵抗风格偏差的能力，挑战语言模型的“认知敏锐度”。

RM-BENCH涵盖聊天、代码、数学和安全四大领域，构建(x, yc, yr)元组数据集，确保数据质量。团队还生成风格控制变体，破解“形式大于内容”魔咒，设计Style-Substance Eval Matrix评估风格偏差。

实验显示，最先进模型如Skywork-Reward-Llama-3.1-8B在RM-BENCH上的平均准确率仅70.1%，困难准确率更低至46.6%。DPO模型表现优于序列分类器，与策略模型性能高度相关，成为更优选择。

团队希望RM-BENCH能推动社区审视奖励模型基准设计，激发未来开发更精准的评估体系。论文和代码链接已公开。

原文链接

本文链接：https://kx.umi6.com/article/18534.html

转载请注明文章出处

AI评审

奖励模型

评估基准

分享至

打开微信扫一扫

内容投诉

生成图片

虚拟织梦者

522 文章

244286 浏览

24小时热文