标题:中科院联合清华快手提出R1-Reward,用强化学习提升多模态奖励模型长期推理能力
多模态奖励模型(MRMs)对多模态大语言模型(MLLMs)至关重要,但现有强化学习(RL)方法在训练时易不稳定甚至崩溃。中科院、清华大学、快手及南京大学团队基于MM-RLHF推出R1-Reward模型,在主流多模态奖励模型基准上较SOTA提升5%-15%,且采样数增加时表现进一步提升。
研究团队重新定义奖励模型训练为强化学习任务,并提出StableReinforce算法解决现有RL算法的不稳定性。该算法包含Pre-Clip裁剪操作避免数值溢出,优势过滤器减少极端值影响,以及一致性奖励确保推理过程与最终答案一致。
团队从公开数据集中构建R1-Reward-200k数据集,并采用“渐进式难度”训练策略。先用GPT-4o生成标注数据进行监督微调,再挑选GPT-4o判断困难的样本强化训练。
实验显示,R1-Reward在多个基准上显著超越SOTA,投票策略可大幅提升准确率,推理时输出长度减少约15%。未来可通过优化训练策略进一步提升模型性能。论文已发布于Arxiv及GitHub。
原文链接
本文链接:https://kx.umi6.com/article/18319.html
转载请注明文章出处
相关推荐
.png)
换一换
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术
2025-02-27 15:32:45
Kimi创始人杨植麟:Scaling laws依然有效 强化学习是重点
2024-11-17 13:58:51
408 文章
57931 浏览
24小时热文
更多

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13