标题:OPPO研究院与港科广提出OThink-MR1技术,突破多模态泛化推理能力
正文:
用动态强化学习,多模态大模型能否实现泛化推理?OPPO研究院和港科广科研人员提出新技术——OThink-MR1,通过强化学习扩展多模态语言模型能力,助力其应对复杂任务与新场景。
OThink-MR1团队表示,该技术突破了多模态泛化推理能力。多模态大模型虽能处理多种数据,但在复杂推理任务中表现欠佳。当前多数模型采用监督微调(SFT),即“划重点”式学习,虽能在特定任务上表现良好,却难以培养通用推理能力。
相比之下,强化学习(RL)让模型在试错中学习,类似于“挨批评”的机制,理论上更灵活。然而,多模态任务中强化学习的通用能力尚未充分开发,且易受训练约束影响。
OThink-MR1由此诞生。该技术基于动态强化学习框架,通过微调多模态语言模型显著提升学习效率与推理能力。其核心包括动态KL散度策略(GRPO-D)和奖励模型。
动态KL散度策略像“智能导航仪”,动态调整探索与利用的平衡。初期鼓励大胆探索,后期侧重利用已有经验,避免局部最优解。
奖励模型则设定评分标准,包含验证准确性奖励和格式奖励。例如,在视觉计数任务中,模型不仅要数对物体数量,还需按指定格式回答。
实验验证显示,OThink-MR1在跨任务和同任务评估中均优于传统方法。无论是几何推理还是视觉计数任务,其表现均显著提升,展现了强大的泛化能力。
OThink-MR1为多模态语言模型发展开辟新路径,未来有望在更多领域发挥作用。论文已发布于https://arxiv.org/abs/2503.16081。
作者:刘志远、章玉婷、刘丰、张长旺、孙莹、王俊
单位:1.OPPO研究院,2.香港科技大学(广州)
原文链接
本文链接:https://kx.umi6.com/article/16417.html
转载请注明文章出处
相关推荐
.png)
换一换
腾讯混元图像2模型发布 支持文本、语音、草图等交互方式
2025-05-16 17:13:07
Grok 4宣布全球免费使用
2025-08-11 11:04:47
我们扒完了GPT-5全网爆料,奥特曼和OpenAI 这次的饼真不好画了
2025-08-05 19:18:01
阶跃星辰与吉利联合开源,多模态实力领跑开源大模型
2025-02-18 10:15:09
摸DeepSeek过河也得自身硬! 想开后的文小言,真香!
2025-03-31 17:40:22
智源研究院发布世界模型Emu3 多模态AGI渐行渐近?
2024-10-22 11:06:09
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
刚刚,商汤发布第六代大模型:6000亿参数多模态MoE,中长视频直接可推理
2025-04-10 22:10:27
字节跳动提出OmniHuman多模态框架 一张图配上音频即可生成逼真视频
2025-02-06 15:36:01
4位图灵奖得主布道,2大冠军机器人登台,“AI春晚”果然又高又硬
2025-06-06 22:39:37
对话智源研究院王仲远:做具身智能的“安卓系统”,而非专用的“iOS”
2025-06-07 10:47:30
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
Sora到底发布不发布,这事可能并不重要了
2024-11-19 14:48:56
493 文章
163485 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24