1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:OPPO研究院与港科广提出OThink-MR1技术,突破多模态泛化推理能力

正文:
用动态强化学习,多模态大模型能否实现泛化推理?OPPO研究院和港科广科研人员提出新技术——OThink-MR1,通过强化学习扩展多模态语言模型能力,助力其应对复杂任务与新场景。

OThink-MR1团队表示,该技术突破了多模态泛化推理能力。多模态大模型虽能处理多种数据,但在复杂推理任务中表现欠佳。当前多数模型采用监督微调(SFT),即“划重点”式学习,虽能在特定任务上表现良好,却难以培养通用推理能力。

相比之下,强化学习(RL)让模型在试错中学习,类似于“挨批评”的机制,理论上更灵活。然而,多模态任务中强化学习的通用能力尚未充分开发,且易受训练约束影响。

OThink-MR1由此诞生。该技术基于动态强化学习框架,通过微调多模态语言模型显著提升学习效率与推理能力。其核心包括动态KL散度策略(GRPO-D)和奖励模型。

动态KL散度策略像“智能导航仪”,动态调整探索与利用的平衡。初期鼓励大胆探索,后期侧重利用已有经验,避免局部最优解。

奖励模型则设定评分标准,包含验证准确性奖励和格式奖励。例如,在视觉计数任务中,模型不仅要数对物体数量,还需按指定格式回答。

实验验证显示,OThink-MR1在跨任务和同任务评估中均优于传统方法。无论是几何推理还是视觉计数任务,其表现均显著提升,展现了强大的泛化能力。

OThink-MR1为多模态语言模型发展开辟新路径,未来有望在更多领域发挥作用。论文已发布于https://arxiv.org/abs/2503.16081。

作者:刘志远、章玉婷、刘丰、张长旺、孙莹、王俊
单位:1.OPPO研究院,2.香港科技大学(广州)

原文链接
本文链接:https://kx.umi6.com/article/16417.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
Sora到底发布不发布,这事可能并不重要了
2024-11-19 14:48:56
商汤「日日新6.5」全新升级,让AI完成从“工具”到“人”的跃迁
2025-07-29 20:35:07
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
财跃星辰CTO白祚:推理模型将快速迭代到Agent模型
2025-02-23 19:04:12
「AI掉队者联盟」谋求改命
2025-06-11 16:13:17
阶跃星辰新一代基础大模型 Step 3 正式开源:拥有强大视觉感知和复杂推理能力
2025-08-01 09:07:26
谷歌深夜炸场:Gemini 2.0 正式发布,关键基准测试性能约为 1.5 Pro 两倍
2024-12-12 00:36:12
一场对话,我们细扒了下文心大模型背后的技术
2025-05-22 23:09:28
商汤日日新 SenseNova V6 多模态融合大模型发布
2025-04-10 17:00:13
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2025-02-26 10:28:10
Llama 4发布:我看到了DeepSeek的影子
2025-04-06 16:06:56
24小时热文
更多
扫一扫体验小程序