标题:快手与东北大学联合推出UNITE框架,突破多模态检索瓶颈
多模态检索作为信息获取的关键技术,长期受制于跨模态干扰问题。为此,快手与东北大学的研究团队共同开发了多模态统一嵌入框架——UNITE。该框架旨在构建一个能够同时处理文本、图像、视频及其融合模态输入的统一嵌入器。
UNITE通过对比学习重新定义了多模态表示学习的范式,提出Modal-Aware Masked Contrastive Learning(MAMCL)机制,有效缓解跨模态干扰。MAMCL采用模态掩码约束,确保仅在与当前查询模态一致的负样本中进行对比,避免模态间的错误竞争。
在细粒度检索、指令检索等任务中,UNITE表现优异。在图像-文本检索任务中,UNITE在ShareGPT4V、Urban1K和DOCCI上超越E5-V和VLM2Vec等模型。视频-文本检索方面,UNITE 2B和7B模型分别在CaReBench的多个子任务中刷新记录。指令检索任务中,UNITE 7B在MMEB Benchmark中以70.3的性能超越更大规模的竞争对手。
此外,研究发现视频-文本数据具有“统一模态”能力,在各类检索任务中表现突出;指令任务更依赖文本主导数据;细粒度Text-Video样本的早期融合可显著提升性能。更多详情请参阅论文与代码链接。
原文链接
本文链接:https://kx.umi6.com/article/19926.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
2024-12-04 14:39:11
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
2025-03-07 15:55:37
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
2025-06-09 18:30:52
AI版Siri虽迟但到?苹果或联手谷歌Gemini 升级iPhone搜索功能
2025-09-04 12:01:25
巨头抢滩AIGC,美团、百度新AI实测来了
2025-09-05 09:14:51
OpenAI 不想再「跪着」买显卡了
2025-09-05 18:24:42
别只用Nano Banana 生图了,视频生成才是王炸组合,这些隐藏玩法真香
2025-09-05 12:19:55
中泰证券:第三季度有望迎来医疗器械板块阶段性拐点
2025-09-05 08:17:22
对话阿里巴巴国际站张阔:几分钟完成几周的工作,AI如何改写跨境贸易
2025-09-06 08:32:00
AI生成苹果Metal内核,PyTorch推理速度提升87%
2025-09-05 11:17:03
估值翻倍用时约 15 个月:法 AI 企业 Mistral 新融资轮中估值达 120 亿欧元
2025-09-05 12:18:29
报道称DeepSeek计划年底前发布AI智能体 公司暂无回应
2025-09-04 17:05:24
美团将上线AI搜索功能:基于用户行为与需求进行智能匹配
2025-09-05 19:24:24
515 文章
200483 浏览
24小时热文
更多

-
2025-09-06 08:33:16
-
2025-09-06 08:32:00
-
2025-09-06 06:30:37