标题:仅1/70数据量,多模态检索效果更优!智源发布BGE-VL,合成数据立大功
BGE系列模型自发布以来广受好评。近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩展了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中表现最佳,借助大规模合成数据MegaPairs训练。
MegaPairs具有两大核心优势: - 优异的可扩展性:高效挖掘多模态三元组数据,以低成本生成多样化且高质量的多模态三元组,此次发布的版本包含2600万条样本。 - 卓越的数据质量:仅需1/70的数据量即可实现更优的训练效果,显著提升多模态检索模型的性能。
BGE-VL的技术报告已发布,相关数据、模型及代码资源将向社区开放。
MegaPairs通过挖掘图像数据集中的多样图像对,利用开源模型生成高质量的多模态检索指令,构建出大规模、高质量的多模态检索指令数据集。基于MegaPairs数据,智源BGE团队训练了多款多模态检索模型,显著提升性能。
在MMEB基准测试中,BGE-VL在多项任务上实现了最优性能,甚至在未包含相关任务数据的情况下仍能泛化良好。在CIRCO评测集上,BGE-VL刷新了现有基准,大幅超越谷歌和英伟达的对比模型。
未来,智源将继续探索MegaPairs与更多多模态检索场景结合,打造更全能的多模态检索器。更多详情请参考论文。
原文链接
本文链接:https://kx.umi6.com/article/14998.html
转载请注明文章出处
相关推荐
换一换
多模态检索新标杆,阿里通义发布并开源 Qwen3-VL-Embedding&Reranker 模型
2026-01-08 23:37:36
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
2025-06-09 18:30:52
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
2024-12-04 14:39:11
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
2025-03-07 15:55:37
恒者蓬勃!第18届创业邦年会暨创业邦100未来独角兽大会圆满举办
2026-01-21 16:16:19
2026年OpenAI最看好的3个方向
2026-01-21 17:20:17
全球首个AI美女演员诞生!星爵演员破大防怒喷
2026-01-21 23:30:59
Airwallex 空中云汇收购韩国持牌支付公司 Paynuri
2026-01-21 13:11:13
最新调仓路径显现 基金经理关注确定性与安全边际
2026-01-22 07:43:21
成都国资开年「闪击战」背后的产业野望
2026-01-21 20:24:37
卢宗青团队新作:人类先验打底,统一动作对齐,通用机器人模型正在落地
2026-01-22 17:03:53
57.1%的人分不清真假!Runway新视频模型太爆炸
2026-01-22 14:56:01
百度发布文心大模型5.0正式版
2026-01-22 10:49:05
619 文章
386653 浏览
24小时热文
更多
-
2026-01-23 10:51:27 -
2026-01-23 10:50:21 -
2026-01-23 10:49:16