1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:OPPO研究院与港科广提出OThink-MR1技术,突破多模态泛化推理能力

正文:
用动态强化学习,多模态大模型能否实现泛化推理?OPPO研究院和港科广科研人员提出新技术——OThink-MR1,通过强化学习扩展多模态语言模型能力,助力其应对复杂任务与新场景。

OThink-MR1团队表示,该技术突破了多模态泛化推理能力。多模态大模型虽能处理多种数据,但在复杂推理任务中表现欠佳。当前多数模型采用监督微调(SFT),即“划重点”式学习,虽能在特定任务上表现良好,却难以培养通用推理能力。

相比之下,强化学习(RL)让模型在试错中学习,类似于“挨批评”的机制,理论上更灵活。然而,多模态任务中强化学习的通用能力尚未充分开发,且易受训练约束影响。

OThink-MR1由此诞生。该技术基于动态强化学习框架,通过微调多模态语言模型显著提升学习效率与推理能力。其核心包括动态KL散度策略(GRPO-D)和奖励模型。

动态KL散度策略像“智能导航仪”,动态调整探索与利用的平衡。初期鼓励大胆探索,后期侧重利用已有经验,避免局部最优解。

奖励模型则设定评分标准,包含验证准确性奖励和格式奖励。例如,在视觉计数任务中,模型不仅要数对物体数量,还需按指定格式回答。

实验验证显示,OThink-MR1在跨任务和同任务评估中均优于传统方法。无论是几何推理还是视觉计数任务,其表现均显著提升,展现了强大的泛化能力。

OThink-MR1为多模态语言模型发展开辟新路径,未来有望在更多领域发挥作用。论文已发布于https://arxiv.org/abs/2503.16081。

作者:刘志远、章玉婷、刘丰、张长旺、孙莹、王俊
单位:1.OPPO研究院,2.香港科技大学(广州)

原文链接
本文链接:https://kx.umi6.com/article/16417.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
匆匆发布的Llama4
2025-04-06 16:09:03
百度:推出首个多模态高度融合数字人
2025-06-17 16:25:35
阶跃星辰CEO姜大昕:多模态是实现AGI的必经之路
2025-05-09 10:48:42
24小时热文
更多
扫一扫体验小程序