1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:中科院联合清华快手提出R1-Reward,用强化学习提升多模态奖励模型长期推理能力

多模态奖励模型(MRMs)对多模态大语言模型(MLLMs)至关重要,但现有强化学习(RL)方法在训练时易不稳定甚至崩溃。中科院、清华大学、快手及南京大学团队基于MM-RLHF推出R1-Reward模型,在主流多模态奖励模型基准上较SOTA提升5%-15%,且采样数增加时表现进一步提升。

研究团队重新定义奖励模型训练为强化学习任务,并提出StableReinforce算法解决现有RL算法的不稳定性。该算法包含Pre-Clip裁剪操作避免数值溢出,优势过滤器减少极端值影响,以及一致性奖励确保推理过程与最终答案一致。

团队从公开数据集中构建R1-Reward-200k数据集,并采用“渐进式难度”训练策略。先用GPT-4o生成标注数据进行监督微调,再挑选GPT-4o判断困难的样本强化训练。

实验显示,R1-Reward在多个基准上显著超越SOTA,投票策略可大幅提升准确率,推理时输出长度减少约15%。未来可通过优化训练策略进一步提升模型性能。论文已发布于Arxiv及GitHub。

原文链接
本文链接:https://kx.umi6.com/article/18319.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
推特热帖:k1.5 很牛,因为借鉴了 UCLA 与 CMU 合作团队的这项技术
2025-02-27 15:32:45
Kimi创始人杨植麟:Scaling laws依然有效 强化学习是重点
2024-11-17 13:58:51
24小时热文
更多
扫一扫体验小程序