标题:多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
一个5月份完成训练的大模型无法回答关于《黑神话·悟空》的问题,因为它缺乏相关训练数据。频繁更新大模型参数不切实际,但现实世界的信息是实时产生的。为此,上海人工智能实验室、北京理工大学、浙江大学和香港大学联合提出即插即用的SearchLVLMs框架,无需微调即可让大模型实时获取准确信息。
SearchLVLMs框架包括查询生成、搜索引擎调用和分层过滤三个部分。例如,在视觉问答中,它基于问题和图片生成查询关键词,调用搜索引擎查找相关信息,再通过分层过滤,提供有助于回答的信息。
团队还提出UDK-VQA数据生成框架,用于自动生成依赖实时信息的视觉问答数据。目前已有UDK-VQA-240401-30和UDK-VQA-240816-20两个版本的数据集,分别涉及2024年4月和8月的信息。
在超过15个开源和闭源模型上进行的实验显示,配备SearchLVLMs的SOTA LVLMs在UDK-VQA数据集上的回答准确率比自带互联网检索增强的GPT-4o高出35%。
SearchLVLMs框架由查询生成、搜索引擎调用和分层过滤三部分组成。查询生成阶段,问题和图像被转化为适合搜索引擎的文本查询;搜索引擎调用阶段,用户根据问题类型选择搜索引擎;分层过滤阶段,网页和片段经过过滤,避免内容重复。
UDK-VQA数据生成框架遵循五步:查询搜集、问题生成、图像分配、伪标注生成和人为验证。构造测试集时,使用不同时间区间的信息,确保时效性。
实验结果显示: 1. 接收长上下文输入可以减少二次筛选,但增加计算消耗。 2. 具备检索增强的闭源商用模型性能优于开源模型。 3. SearchLVLMs显著提升多模态大模型处理实时信息的能力。 4. SearchLVLMs在实时信息检索任务中表现优于已有方法。 5. 开源模型结合SearchLVLMs,性能可超过闭源商用模型。
参考文献: [1] Yu et al. Generate rather than retrieve: Large language models are strong context generators. arXiv 2023. [2] Lu et al. Chameleon: Plug-and-play compositional reasoning with large language models. NeurIPS 2023. [3] Chen et al. Can pre-trained vision and language models answer visual information-seeking questions? EMNLP 2023.
文章链接: https://arxiv.org/abs/2405.14554 项目主页:https://nevermorelch.github.io/SearchLVLMs.github.io/
.png)

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13