多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
字节跳动与南洋理工大学(NTU)联合推出MMSearch-R1项目,通过强化学习训练多模态模型自主执行智能搜索。该研究首次尝试基于端到端强化学习的多模态模型训练,使模型能够判断何时搜索、搜索什么以及如何处理结果,在减少约30%搜索次数的同时,性能媲美更大规模模型的传统检索增强生成(RAG)方法。
现实世界信息复杂多变,单纯依靠扩大训练数据难以覆盖长尾知识和动态更新内容。为此,MMSearch-R1集成了图像搜索(基于Google Lens)和文本搜索工具(结合Google Search与语言模型),帮助模型精准定位视觉与文本信息。同时,研究采用GRPO强化学习算法,设计了带有搜索惩罚的奖励函数,鼓励模型优先利用自身知识作答。
为训练模型的按需搜索能力,团队构建了FactualVQA数据集,包含需要搜索和无需搜索的均衡样本。实验表明,MMSearch-R1-7B在知识密集型视觉问答任务中,平均准确率比同等规模模型的传统RAG基线高出3%,搜索比率降低32.9%,效果接近32B模型的RAG基线。
强化学习显著提升了模型优化搜索内容和利用自身知识的能力,同时证明了数据均衡与搜索惩罚机制对塑造按需搜索行为的重要性。MMSearch-R1为开发具备现实交互能力的多模态智能体提供了重要洞见,推动多模态智能在推理和适应能力上的进一步飞跃。
论文地址:https://arxiv.org/abs/2506.20670
项目地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1
原文链接
本文链接:https://kx.umi6.com/article/21429.html
转载请注明文章出处
相关推荐
.png)
换一换
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
超低成本复现QwQ!数学推理模型训练迎来RL暴击,数据代码全开源 | 蚂蚁&清华出品
2025-04-01 11:18:45
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
2025-06-11 16:14:21
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
2025-06-05 15:52:55
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
QwenLong-L1-32B 模型登场:阿里通义千问首个强化学习训练的长文本推理 AI 模型
2025-05-27 14:51:28
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
宇树和智元爆火背后:人类是如何给机器人注入灵魂的?
2025-03-14 09:00:17
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
472 文章
153062 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24