标题:OPPO研究院与港科广提出OThink-MR1技术,突破多模态泛化推理能力
正文:
用动态强化学习,多模态大模型能否实现泛化推理?OPPO研究院和港科广科研人员提出新技术——OThink-MR1,通过强化学习扩展多模态语言模型能力,助力其应对复杂任务与新场景。
OThink-MR1团队表示,该技术突破了多模态泛化推理能力。多模态大模型虽能处理多种数据,但在复杂推理任务中表现欠佳。当前多数模型采用监督微调(SFT),即“划重点”式学习,虽能在特定任务上表现良好,却难以培养通用推理能力。
相比之下,强化学习(RL)让模型在试错中学习,类似于“挨批评”的机制,理论上更灵活。然而,多模态任务中强化学习的通用能力尚未充分开发,且易受训练约束影响。
OThink-MR1由此诞生。该技术基于动态强化学习框架,通过微调多模态语言模型显著提升学习效率与推理能力。其核心包括动态KL散度策略(GRPO-D)和奖励模型。
动态KL散度策略像“智能导航仪”,动态调整探索与利用的平衡。初期鼓励大胆探索,后期侧重利用已有经验,避免局部最优解。
奖励模型则设定评分标准,包含验证准确性奖励和格式奖励。例如,在视觉计数任务中,模型不仅要数对物体数量,还需按指定格式回答。
实验验证显示,OThink-MR1在跨任务和同任务评估中均优于传统方法。无论是几何推理还是视觉计数任务,其表现均显著提升,展现了强大的泛化能力。
OThink-MR1为多模态语言模型发展开辟新路径,未来有望在更多领域发挥作用。论文已发布于https://arxiv.org/abs/2503.16081。
作者:刘志远、章玉婷、刘丰、张长旺、孙莹、王俊
单位:1.OPPO研究院,2.香港科技大学(广州)
原文链接
本文链接:https://kx.umi6.com/article/16417.html
转载请注明文章出处
相关推荐
换一换
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
Sora到底发布不发布,这事可能并不重要了
2024-11-19 14:48:56
商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁
2025-07-29 20:35:07
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
财跃星辰CTO白祚:推理模型将快速迭代到Agent模型
2025-02-23 19:04:12
「AI掉队者联盟」谋求改命
2025-06-11 16:13:17
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
2025-08-01 09:07:26
谷歌深夜炸场:Gemini 2.0 正式发布,关键基准测试性能约为 1.5 Pro 两倍
2024-12-12 00:36:12
一场对话,我们细扒了下文心大模型背后的技术
2025-05-22 23:09:28
商汤日日新 SenseNova V6 多模态融合大模型发布
2025-04-10 17:00:13
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2025-02-26 10:28:10
Llama 4发布:我看到了DeepSeek的影子
2025-04-06 16:06:56
633 文章
423142 浏览
24小时热文
更多
-
2026-01-23 17:11:08 -
2026-01-23 17:10:00 -
2026-01-23 17:08:55