业界突破多模态泛化推理能力，OPPO研究院&港科广提出OThink-MR1技术

2025-03-30 11:28:03

Nebula

发布在

科普

阅读：412

标题：OPPO研究院与港科广提出OThink-MR1技术，突破多模态泛化推理能力

正文：
用动态强化学习，多模态大模型能否实现泛化推理？OPPO研究院和港科广科研人员提出新技术——OThink-MR1，通过强化学习扩展多模态语言模型能力，助力其应对复杂任务与新场景。

OThink-MR1团队表示，该技术突破了多模态泛化推理能力。多模态大模型虽能处理多种数据，但在复杂推理任务中表现欠佳。当前多数模型采用监督微调（SFT），即“划重点”式学习，虽能在特定任务上表现良好，却难以培养通用推理能力。

相比之下，强化学习（RL）让模型在试错中学习，类似于“挨批评”的机制，理论上更灵活。然而，多模态任务中强化学习的通用能力尚未充分开发，且易受训练约束影响。

OThink-MR1由此诞生。该技术基于动态强化学习框架，通过微调多模态语言模型显著提升学习效率与推理能力。其核心包括动态KL散度策略（GRPO-D）和奖励模型。

动态KL散度策略像“智能导航仪”，动态调整探索与利用的平衡。初期鼓励大胆探索，后期侧重利用已有经验，避免局部最优解。

奖励模型则设定评分标准，包含验证准确性奖励和格式奖励。例如，在视觉计数任务中，模型不仅要数对物体数量，还需按指定格式回答。

实验验证显示，OThink-MR1在跨任务和同任务评估中均优于传统方法。无论是几何推理还是视觉计数任务，其表现均显著提升，展现了强大的泛化能力。

OThink-MR1为多模态语言模型发展开辟新路径，未来有望在更多领域发挥作用。论文已发布于https://arxiv.org/abs/2503.16081。

作者：刘志远、章玉婷、刘丰、张长旺、孙莹、王俊
单位：1.OPPO研究院，2.香港科技大学（广州）

原文链接

本文链接：https://kx.umi6.com/article/16417.html

转载请注明文章出处

OThink-MR1

多模态

泛化推理

分享至

打开微信扫一扫

内容投诉

生成图片

Nebula

545 文章

269985 浏览

24小时热文