标题:中科院联合清华快手提出R1-Reward,用强化学习提升多模态奖励模型长期推理能力
多模态奖励模型(MRMs)对多模态大语言模型(MLLMs)至关重要,但现有强化学习(RL)方法在训练时易不稳定甚至崩溃。中科院、清华大学、快手及南京大学团队基于MM-RLHF推出R1-Reward模型,在主流多模态奖励模型基准上较SOTA提升5%-15%,且采样数增加时表现进一步提升。
研究团队重新定义奖励模型训练为强化学习任务,并提出StableReinforce算法解决现有RL算法的不稳定性。该算法包含Pre-Clip裁剪操作避免数值溢出,优势过滤器减少极端值影响,以及一致性奖励确保推理过程与最终答案一致。
团队从公开数据集中构建R1-Reward-200k数据集,并采用“渐进式难度”训练策略。先用GPT-4o生成标注数据进行监督微调,再挑选GPT-4o判断困难的样本强化训练。
实验显示,R1-Reward在多个基准上显著超越SOTA,投票策略可大幅提升准确率,推理时输出长度减少约15%。未来可通过优化训练策略进一步提升模型性能。论文已发布于Arxiv及GitHub。
原文链接
本文链接:https://kx.umi6.com/article/18319.html
转载请注明文章出处
相关推荐
换一换
稚晖君机器人“葡萄缝针”神技再现江湖 这次是人形的
2025-03-11 23:55:21
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
攻克强化学习「最慢一环」!交大字节联手,RL训练速度飙升2.6倍
2025-09-13 17:30:05
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
我不给人做产品,给Agent做
2025-06-30 08:39:41
2025年图灵奖:强化学习的前世今生
2025-04-01 10:19:18
OpenAI路线遭质疑,Meta研究员:根本无法构建超级智能
2025-06-20 21:05:08
图文并茂:DeepSeek R1 是怎么练成的
2025-02-18 11:11:33
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
非技术人10分钟读懂Deepseek R1
2025-02-14 18:44:39
513 文章
248266 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54