标题:OPPO研究院与港科广提出OThink-MR1技术,突破多模态泛化推理能力
正文:
用动态强化学习,多模态大模型能否实现泛化推理?OPPO研究院和港科广科研人员提出新技术——OThink-MR1,通过强化学习扩展多模态语言模型能力,助力其应对复杂任务与新场景。
OThink-MR1团队表示,该技术突破了多模态泛化推理能力。多模态大模型虽能处理多种数据,但在复杂推理任务中表现欠佳。当前多数模型采用监督微调(SFT),即“划重点”式学习,虽能在特定任务上表现良好,却难以培养通用推理能力。
相比之下,强化学习(RL)让模型在试错中学习,类似于“挨批评”的机制,理论上更灵活。然而,多模态任务中强化学习的通用能力尚未充分开发,且易受训练约束影响。
OThink-MR1由此诞生。该技术基于动态强化学习框架,通过微调多模态语言模型显著提升学习效率与推理能力。其核心包括动态KL散度策略(GRPO-D)和奖励模型。
动态KL散度策略像“智能导航仪”,动态调整探索与利用的平衡。初期鼓励大胆探索,后期侧重利用已有经验,避免局部最优解。
奖励模型则设定评分标准,包含验证准确性奖励和格式奖励。例如,在视觉计数任务中,模型不仅要数对物体数量,还需按指定格式回答。
实验验证显示,OThink-MR1在跨任务和同任务评估中均优于传统方法。无论是几何推理还是视觉计数任务,其表现均显著提升,展现了强大的泛化能力。
OThink-MR1为多模态语言模型发展开辟新路径,未来有望在更多领域发挥作用。论文已发布于https://arxiv.org/abs/2503.16081。
作者:刘志远、章玉婷、刘丰、张长旺、孙莹、王俊
单位:1.OPPO研究院,2.香港科技大学(广州)
原文链接
本文链接:https://kx.umi6.com/article/16417.html
转载请注明文章出处
相关推荐
换一换
GPT-5超越人类医生!推理能力比专家高出24%,理解力强29%
2025-08-15 16:18:18
中国移动“九天”通用基础大模型 3.0 发布,核心技术开源
2025-07-26 22:47:54
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
2025-08-01 09:07:26
实测字节扣子空间:AI 播客比真人丝滑,Agent 能打 80% 的工
2025-05-30 15:54:58
2024,AI行业的新进展
2024-11-28 14:27:17
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
阿里通义团队开源 R1-Omni:多模态模型 + RLVR,让各模态作用清晰可见
2025-03-11 19:46:02
文生视频模型为何迟迟没有“aha moment”?
2025-04-14 15:40:26
字节跳动提出OmniHuman多模态框架 一张图配上音频即可生成逼真视频
2025-02-06 15:36:01
什么是真正好用的推理模型?阶跃Step 3:开源的,多模态的,低成本的,国产芯片适配的
2025-07-28 10:09:36
截胡 OpenAI,谷歌全模态模型首次解禁!Gemini 2.0 中文唠嗑式 P 图引动漫游戏圈关注
2025-03-13 15:23:45
字节 Seed 开源统一多模态理解和生成模型 BAGEL
2025-06-03 19:01:17
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2025-02-26 10:28:10
545 文章
269985 浏览
24小时热文
更多
-
2025-10-25 10:17:38 -
2025-10-25 08:14:19 -
2025-10-24 22:57:14