1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多模态模型免微调接入互联网,即插即用新框架,效果超闭源方案

一个5月份完成训练的大模型无法回答关于《黑神话·悟空》的问题,因为它缺乏相关训练数据。频繁更新大模型参数不切实际,但现实世界的信息是实时产生的。为此,上海人工智能实验室、北京理工大学、浙江大学和香港大学联合提出即插即用的SearchLVLMs框架,无需微调即可让大模型实时获取准确信息。

SearchLVLMs框架包括查询生成、搜索引擎调用和分层过滤三个部分。例如,在视觉问答中,它基于问题和图片生成查询关键词,调用搜索引擎查找相关信息,再通过分层过滤,提供有助于回答的信息。

团队还提出UDK-VQA数据生成框架,用于自动生成依赖实时信息的视觉问答数据。目前已有UDK-VQA-240401-30和UDK-VQA-240816-20两个版本的数据集,分别涉及2024年4月和8月的信息。

在超过15个开源和闭源模型上进行的实验显示,配备SearchLVLMs的SOTA LVLMs在UDK-VQA数据集上的回答准确率比自带互联网检索增强的GPT-4o高出35%。

SearchLVLMs框架由查询生成、搜索引擎调用和分层过滤三部分组成。查询生成阶段,问题和图像被转化为适合搜索引擎的文本查询;搜索引擎调用阶段,用户根据问题类型选择搜索引擎;分层过滤阶段,网页和片段经过过滤,避免内容重复。

UDK-VQA数据生成框架遵循五步:查询搜集、问题生成、图像分配、伪标注生成和人为验证。构造测试集时,使用不同时间区间的信息,确保时效性。

实验结果显示: 1. 接收长上下文输入可以减少二次筛选,但增加计算消耗。 2. 具备检索增强的闭源商用模型性能优于开源模型。 3. SearchLVLMs显著提升多模态大模型处理实时信息的能力。 4. SearchLVLMs在实时信息检索任务中表现优于已有方法。 5. 开源模型结合SearchLVLMs,性能可超过闭源商用模型。

参考文献: [1] Yu et al. Generate rather than retrieve: Large language models are strong context generators. arXiv 2023. [2] Lu et al. Chameleon: Plug-and-play compositional reasoning with large language models. NeurIPS 2023. [3] Chen et al. Can pre-trained vision and language models answer visual information-seeking questions? EMNLP 2023.

文章链接: https://arxiv.org/abs/2405.14554 项目主页:https://nevermorelch.github.io/SearchLVLMs.github.io/

原文链接
本文链接:https://kx.umi6.com/article/8536.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
vivo发布端侧多模态模型,只有3B可理解GUI界面,20项评测表现亮眼
2025-07-10 17:25:30
阿里通义千问宣布推出多模态模型 Qwen VLo,实现从感知到生成的跨越
2025-06-28 00:15:30
实测商汤实时音视频交互模型5o:“造假”齐白石《虾》一眼识破!
2025-01-23 16:19:50
全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁
2025-02-08 14:22:14
AI科学家能不能理解普通人对AI的需求,怎么理解?
2024-10-09 10:59:30
具身智能实力派!十年多模态打底,世界模型开路,商汤悟能来了
2025-07-28 10:08:25
Mistral 发布首款多模态模型,挑战 OpenAI等竞争对手
2024-09-12 16:52:34
阶跃星辰首届开放日:多模领先,智能终端等Agent应用全面涌现
2025-02-21 18:55:11
3D打印火出圈了?一众网友秀“成果” 幕后推手竟是这款AI模型
2025-09-01 13:19:49
告别AI“乱画图表”!港中文团队发布首个结构化图像生成编辑系统
2025-10-11 17:30:27
谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态
2025-06-27 16:11:19
超GPT-4o,1240亿参数!最强开源多模态模型 Pixtral Large!
2024-11-19 14:50:08
全球最大开源视频模型,现在也Created in China了,阶跃出品
2025-02-18 13:15:12
24小时热文
更多
扫一扫体验小程序