1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略

字节跳动与南洋理工大学(NTU)联合推出MMSearch-R1项目,通过强化学习训练多模态模型自主执行智能搜索。该研究首次尝试基于端到端强化学习的多模态模型训练,使模型能够判断何时搜索、搜索什么以及如何处理结果,在减少约30%搜索次数的同时,性能媲美更大规模模型的传统检索增强生成(RAG)方法。

现实世界信息复杂多变,单纯依靠扩大训练数据难以覆盖长尾知识和动态更新内容。为此,MMSearch-R1集成了图像搜索(基于Google Lens)和文本搜索工具(结合Google Search与语言模型),帮助模型精准定位视觉与文本信息。同时,研究采用GRPO强化学习算法,设计了带有搜索惩罚的奖励函数,鼓励模型优先利用自身知识作答。

为训练模型的按需搜索能力,团队构建了FactualVQA数据集,包含需要搜索和无需搜索的均衡样本。实验表明,MMSearch-R1-7B在知识密集型视觉问答任务中,平均准确率比同等规模模型的传统RAG基线高出3%,搜索比率降低32.9%,效果接近32B模型的RAG基线。

强化学习显著提升了模型优化搜索内容和利用自身知识的能力,同时证明了数据均衡与搜索惩罚机制对塑造按需搜索行为的重要性。MMSearch-R1为开发具备现实交互能力的多模态智能体提供了重要洞见,推动多模态智能在推理和适应能力上的进一步飞跃。

论文地址:https://arxiv.org/abs/2506.20670
项目地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

原文链接
本文链接:https://kx.umi6.com/article/21429.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI奥尔特曼发布草莓照片 引发新模型猜想
2024-08-08 18:34:58
微软 AI 版《雷神之锤 2》遭喷:模糊、耗电,亵渎开发者工作
2025-04-07 13:00:32
沉浸式观看巴黎奥运会,这家融资3.5亿的公司做到了
2024-07-31 12:26:00
24小时热文
更多
扫一扫体验小程序