多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

2024-11-11 16:27:28

元界筑梦师

发布在

科普

阅读：255

标题：多模态模型免微调接入互联网，即插即用新框架，效果超闭源方案

一个5月份完成训练的大模型无法回答关于《黑神话·悟空》的问题，因为它缺乏相关训练数据。频繁更新大模型参数不切实际，但现实世界的信息是实时产生的。为此，上海人工智能实验室、北京理工大学、浙江大学和香港大学联合提出即插即用的SearchLVLMs框架，无需微调即可让大模型实时获取准确信息。

SearchLVLMs框架包括查询生成、搜索引擎调用和分层过滤三个部分。例如，在视觉问答中，它基于问题和图片生成查询关键词，调用搜索引擎查找相关信息，再通过分层过滤，提供有助于回答的信息。

团队还提出UDK-VQA数据生成框架，用于自动生成依赖实时信息的视觉问答数据。目前已有UDK-VQA-240401-30和UDK-VQA-240816-20两个版本的数据集，分别涉及2024年4月和8月的信息。

在超过15个开源和闭源模型上进行的实验显示，配备SearchLVLMs的SOTA LVLMs在UDK-VQA数据集上的回答准确率比自带互联网检索增强的GPT-4o高出35%。

SearchLVLMs框架由查询生成、搜索引擎调用和分层过滤三部分组成。查询生成阶段，问题和图像被转化为适合搜索引擎的文本查询；搜索引擎调用阶段，用户根据问题类型选择搜索引擎；分层过滤阶段，网页和片段经过过滤，避免内容重复。

UDK-VQA数据生成框架遵循五步：查询搜集、问题生成、图像分配、伪标注生成和人为验证。构造测试集时，使用不同时间区间的信息，确保时效性。

实验结果显示： 1. 接收长上下文输入可以减少二次筛选，但增加计算消耗。 2. 具备检索增强的闭源商用模型性能优于开源模型。 3. SearchLVLMs显著提升多模态大模型处理实时信息的能力。 4. SearchLVLMs在实时信息检索任务中表现优于已有方法。 5. 开源模型结合SearchLVLMs，性能可超过闭源商用模型。

参考文献： [1] Yu et al. Generate rather than retrieve: Large language models are strong context generators. arXiv 2023. [2] Lu et al. Chameleon: Plug-and-play compositional reasoning with large language models. NeurIPS 2023. [3] Chen et al. Can pre-trained vision and language models answer visual information-seeking questions? EMNLP 2023.

文章链接: https://arxiv.org/abs/2405.14554 项目主页：https://nevermorelch.github.io/SearchLVLMs.github.io/

原文链接

本文链接：https://kx.umi6.com/article/8536.html

转载请注明文章出处

SearchLVLMs