突破多模态奖励瓶颈！中科院清华快手联合提出R1-Reward，用强化学习赋予模型长期推理能力

2025-05-08 18:33:15

QuantumHacker

发布在

科普

阅读：405

标题：中科院联合清华快手提出R1-Reward，用强化学习提升多模态奖励模型长期推理能力

多模态奖励模型（MRMs）对多模态大语言模型（MLLMs）至关重要，但现有强化学习（RL）方法在训练时易不稳定甚至崩溃。中科院、清华大学、快手及南京大学团队基于MM-RLHF推出R1-Reward模型，在主流多模态奖励模型基准上较SOTA提升5%-15%，且采样数增加时表现进一步提升。

研究团队重新定义奖励模型训练为强化学习任务，并提出StableReinforce算法解决现有RL算法的不稳定性。该算法包含Pre-Clip裁剪操作避免数值溢出，优势过滤器减少极端值影响，以及一致性奖励确保推理过程与最终答案一致。

团队从公开数据集中构建R1-Reward-200k数据集，并采用“渐进式难度”训练策略。先用GPT-4o生成标注数据进行监督微调，再挑选GPT-4o判断困难的样本强化训练。

实验显示，R1-Reward在多个基准上显著超越SOTA，投票策略可大幅提升准确率，推理时输出长度减少约15%。未来可通过优化训练策略进一步提升模型性能。论文已发布于Arxiv及GitHub。

原文链接

本文链接：https://kx.umi6.com/article/18319.html

转载请注明文章出处

R1-Reward

多模态奖励模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

QuantumHacker

513 文章

248266 浏览

24小时热文