标题:仅1/70数据量,多模态检索效果更优!智源发布BGE-VL,合成数据立大功
BGE系列模型自发布以来广受好评。近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩展了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中表现最佳,借助大规模合成数据MegaPairs训练。
MegaPairs具有两大核心优势: - 优异的可扩展性:高效挖掘多模态三元组数据,以低成本生成多样化且高质量的多模态三元组,此次发布的版本包含2600万条样本。 - 卓越的数据质量:仅需1/70的数据量即可实现更优的训练效果,显著提升多模态检索模型的性能。
BGE-VL的技术报告已发布,相关数据、模型及代码资源将向社区开放。
MegaPairs通过挖掘图像数据集中的多样图像对,利用开源模型生成高质量的多模态检索指令,构建出大规模、高质量的多模态检索指令数据集。基于MegaPairs数据,智源BGE团队训练了多款多模态检索模型,显著提升性能。
在MMEB基准测试中,BGE-VL在多项任务上实现了最优性能,甚至在未包含相关任务数据的情况下仍能泛化良好。在CIRCO评测集上,BGE-VL刷新了现有基准,大幅超越谷歌和英伟达的对比模型。
未来,智源将继续探索MegaPairs与更多多模态检索场景结合,打造更全能的多模态检索器。更多详情请参考论文。
原文链接
本文链接:https://kx.umi6.com/article/14998.html
转载请注明文章出处
相关推荐
换一换
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
2024-12-04 14:39:11
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
2025-06-09 18:30:52
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
2025-03-07 15:55:37
快手进军“AI 编程”赛道,推出“工具 + 模型 + 平台”产品矩阵
2025-10-23 16:09:13
AI推动芯片需求!英特尔三季报超预期 盘后股价大涨近9%
2025-10-24 09:33:43
荣耀董事长吴晖:已累计投入超100亿元用于AI研发
2025-10-23 12:03:24
通用汽车放大招:谷歌AI助手明年上车+高级智驾将解放手眼
2025-10-23 01:55:15
马斯克详谈AI5芯片:由三星和台积电一起生产,不会弃用英伟达GPU!
2025-10-23 10:06:47
深圳:在集成电路、人工智能、新能源、生物医药等战略性新兴产业领域 支持“链主”企业、龙头上市公司等开展上下游并购重组
2025-10-22 17:52:12
荣耀设立20亿激励资源 提升智能体和MagicOS生态体验力度
2025-10-23 18:14:34
摩尔线程、国家信息中心战略合作!国产GPU空前新机遇
2025-10-23 20:13:57
OpenAI:欧洲业务增长强劲 将继续加大投入
2025-10-24 00:18:56
一文讲透Agent的底层逻辑
2025-10-22 22:53:19
528 文章
241067 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35