1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:快手与东北大学联合推出UNITE框架,突破多模态检索瓶颈

多模态检索作为信息获取的关键技术,长期受制于跨模态干扰问题。为此,快手与东北大学的研究团队共同开发了多模态统一嵌入框架——UNITE。该框架旨在构建一个能够同时处理文本、图像、视频及其融合模态输入的统一嵌入器。

UNITE通过对比学习重新定义了多模态表示学习的范式,提出Modal-Aware Masked Contrastive Learning(MAMCL)机制,有效缓解跨模态干扰。MAMCL采用模态掩码约束,确保仅在与当前查询模态一致的负样本中进行对比,避免模态间的错误竞争。

在细粒度检索、指令检索等任务中,UNITE表现优异。在图像-文本检索任务中,UNITE在ShareGPT4V、Urban1K和DOCCI上超越E5-V和VLM2Vec等模型。视频-文本检索方面,UNITE 2B和7B模型分别在CaReBench的多个子任务中刷新记录。指令检索任务中,UNITE 7B在MMEB Benchmark中以70.3的性能超越更大规模的竞争对手。

此外,研究发现视频-文本数据具有“统一模态”能力,在各类检索任务中表现突出;指令任务更依赖文本主导数据;细粒度Text-Video样本的早期融合可显著提升性能。更多详情请参阅论文与代码链接。

原文链接
本文链接:https://kx.umi6.com/article/19926.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
2025-06-09 18:30:52
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
2025-03-07 15:55:37
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
2024-12-04 14:39:11
24小时热文
更多
扫一扫体验小程序