1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:中科院联合清华快手提出R1-Reward,用强化学习提升多模态奖励模型长期推理能力

多模态奖励模型(MRMs)对多模态大语言模型(MLLMs)至关重要,但现有强化学习(RL)方法在训练时易不稳定甚至崩溃。中科院、清华大学、快手及南京大学团队基于MM-RLHF推出R1-Reward模型,在主流多模态奖励模型基准上较SOTA提升5%-15%,且采样数增加时表现进一步提升。

研究团队重新定义奖励模型训练为强化学习任务,并提出StableReinforce算法解决现有RL算法的不稳定性。该算法包含Pre-Clip裁剪操作避免数值溢出,优势过滤器减少极端值影响,以及一致性奖励确保推理过程与最终答案一致。

团队从公开数据集中构建R1-Reward-200k数据集,并采用“渐进式难度”训练策略。先用GPT-4o生成标注数据进行监督微调,再挑选GPT-4o判断困难的样本强化训练。

实验显示,R1-Reward在多个基准上显著超越SOTA,投票策略可大幅提升准确率,推理时输出长度减少约15%。未来可通过优化训练策略进一步提升模型性能。论文已发布于Arxiv及GitHub。

原文链接
本文链接:https://kx.umi6.com/article/18319.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
2025年图灵奖:强化学习的前世今生
2025-04-01 10:19:18
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
未来的科技历史,将如何发展?
2025-03-07 10:03:26
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
24小时热文
更多
扫一扫体验小程序