标题:仅1/70数据量,多模态检索效果更优!智源发布BGE-VL,合成数据立大功
BGE系列模型自发布以来广受好评。近日,智源研究院联合多所高校开发了多模态向量模型BGE-VL,进一步扩展了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中表现最佳,借助大规模合成数据MegaPairs训练。
MegaPairs具有两大核心优势: - 优异的可扩展性:高效挖掘多模态三元组数据,以低成本生成多样化且高质量的多模态三元组,此次发布的版本包含2600万条样本。 - 卓越的数据质量:仅需1/70的数据量即可实现更优的训练效果,显著提升多模态检索模型的性能。
BGE-VL的技术报告已发布,相关数据、模型及代码资源将向社区开放。
MegaPairs通过挖掘图像数据集中的多样图像对,利用开源模型生成高质量的多模态检索指令,构建出大规模、高质量的多模态检索指令数据集。基于MegaPairs数据,智源BGE团队训练了多款多模态检索模型,显著提升性能。
在MMEB基准测试中,BGE-VL在多项任务上实现了最优性能,甚至在未包含相关任务数据的情况下仍能泛化良好。在CIRCO评测集上,BGE-VL刷新了现有基准,大幅超越谷歌和英伟达的对比模型。
未来,智源将继续探索MegaPairs与更多多模态检索场景结合,打造更全能的多模态检索器。更多详情请参考论文。
原文链接
本文链接:https://kx.umi6.com/article/14998.html
转载请注明文章出处
相关推荐
换一换
多模态检索新标杆,阿里通义发布并开源 Qwen3-VL-Embedding&Reranker 模型
2026-01-08 23:37:36
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
2025-06-09 18:30:52
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
2025-03-07 15:55:37
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
2024-12-04 14:39:11
看完背后冷汗流!研究:先拥抱AI的行业或许会先被AI吃掉
2026-03-07 08:16:24
近千名爱好者在深圳腾讯大厦门口排队安装OpenClaw 今早11点预约号发放完毕
2026-03-06 17:21:47
AI“养龙虾”走红 专家建议:部署OpenClaw关闭不必要的公网访问
2026-03-09 20:09:18
文远知行与吉利远程深化战略合作,2026年交付2000台前装量产Robotaxi GXR
2026-03-09 13:44:22
企业微信支持接入OpenClaw,仅需3步即可快速上手
2026-03-09 15:49:05
常熟下场“养龙虾”:对“一人公司”最高拟予600万元支持
2026-03-10 13:18:55
龙虾最大痛点被官方插件升级!对话永不忘记,GPT和Gemini最强模型都可接入
2026-03-09 13:43:10
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
2026-03-09 19:00:56
高德发布全球首个由大模型驱动的视觉认知步行导引系统
2026-03-06 19:28:12
648 文章
442994 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43