1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案

一个5月份完成训练的大模型无法回答关于《黑神话·悟空》的问题,因为它缺乏相关训练数据。频繁更新大模型参数不切实际,但现实世界的信息是实时产生的。为此,上海人工智能实验室、北京理工大学、浙江大学和香港大学联合提出即插即用的SearchLVLMs框架,无需微调即可让大模型实时获取准确信息。

SearchLVLMs框架包括查询生成、搜索引擎调用和分层过滤三个部分。例如,在视觉问答中,它基于问题和图片生成查询关键词,调用搜索引擎查找相关信息,再通过分层过滤,提供有助于回答的信息。

团队还提出UDK-VQA数据生成框架,用于自动生成依赖实时信息的视觉问答数据。目前已有UDK-VQA-240401-30和UDK-VQA-240816-20两个版本的数据集,分别涉及2024年4月和8月的信息。

在超过15个开源和闭源模型上进行的实验显示,配备SearchLVLMs的SOTA LVLMs在UDK-VQA数据集上的回答准确率比自带互联网检索增强的GPT-4o高出35%。

SearchLVLMs框架由查询生成、搜索引擎调用和分层过滤三部分组成。查询生成阶段,问题和图像被转化为适合搜索引擎的文本查询;搜索引擎调用阶段,用户根据问题类型选择搜索引擎;分层过滤阶段,网页和片段经过过滤,避免内容重复。

UDK-VQA数据生成框架遵循五步:查询搜集、问题生成、图像分配、伪标注生成和人为验证。构造测试集时,使用不同时间区间的信息,确保时效性。

实验结果显示: 1. 接收长上下文输入可以减少二次筛选,但增加计算消耗。 2. 具备检索增强的闭源商用模型性能优于开源模型。 3. SearchLVLMs显著提升多模态大模型处理实时信息的能力。 4. SearchLVLMs在实时信息检索任务中表现优于已有方法。 5. 开源模型结合SearchLVLMs,性能可超过闭源商用模型。

参考文献: [1] Yu et al. Generate rather than retrieve: Large language models are strong context generators. arXiv 2023. [2] Lu et al. Chameleon: Plug-and-play compositional reasoning with large language models. NeurIPS 2023. [3] Chen et al. Can pre-trained vision and language models answer visual information-seeking questions? EMNLP 2023.

文章链接: https://arxiv.org/abs/2405.14554 项目主页:https://nevermorelch.github.io/SearchLVLMs.github.io/

原文链接
本文链接:https://kx.umi6.com/article/8536.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案
2024-11-11 16:27:28
阿里AI TO C业务启动近千人招聘,加速多模态模型和前沿AI应用布局
2025-08-13 16:37:08
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
多模态都是假的:最强模型数不清手指、认不出雷碧
2025-07-22 15:38:55
谷歌年度大招:所有AI模型全升级一遍!Gemini2.5大杯中杯霸榜前二,新版视频/图像模型亮相
2025-05-21 05:52:42
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
2025-06-28 13:21:34
行业首个:8B 参数面壁小钢炮 MiniCPM-V 4.5 开源,号称“最强端侧多模态模型”
2025-08-28 10:15:37
对话阶跃星辰CEO姜大昕:两年发布16款多模态模型,DeepSeek证明投流模式不成立
2025-05-08 16:31:26
Meta开源多模态模型——Llama 3.2
2024-10-09 11:34:43
空间智能版ImageNet来了!李飞飞吴佳俊团队出品
2024-11-11 16:11:01
Ilya观点得证!仅靠预测下一个token统一图像文本视频,智源发布原生多模态世界模型Emu3
2024-10-21 13:24:07
多模态新旗舰MiniCPM-V 4.5:8B 性能超越 72B,高刷视频理解又准又快
2025-08-27 12:03:30
24小时热文
更多
扫一扫体验小程序