1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:快手与东北大学联合推出UNITE框架,突破多模态检索瓶颈

多模态检索作为信息获取的关键技术,长期受制于跨模态干扰问题。为此,快手与东北大学的研究团队共同开发了多模态统一嵌入框架——UNITE。该框架旨在构建一个能够同时处理文本、图像、视频及其融合模态输入的统一嵌入器。

UNITE通过对比学习重新定义了多模态表示学习的范式,提出Modal-Aware Masked Contrastive Learning(MAMCL)机制,有效缓解跨模态干扰。MAMCL采用模态掩码约束,确保仅在与当前查询模态一致的负样本中进行对比,避免模态间的错误竞争。

在细粒度检索、指令检索等任务中,UNITE表现优异。在图像-文本检索任务中,UNITE在ShareGPT4V、Urban1K和DOCCI上超越E5-V和VLM2Vec等模型。视频-文本检索方面,UNITE 2B和7B模型分别在CaReBench的多个子任务中刷新记录。指令检索任务中,UNITE 7B在MMEB Benchmark中以70.3的性能超越更大规模的竞争对手。

此外,研究发现视频-文本数据具有“统一模态”能力,在各类检索任务中表现突出;指令任务更依赖文本主导数据;细粒度Text-Video样本的早期融合可显著提升性能。更多详情请参阅论文与代码链接。

原文链接
本文链接:https://kx.umi6.com/article/19926.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
2024-12-04 14:39:11
多模态检索新标杆,阿里通义发布并开源 Qwen3-VL-Embedding&Reranker 模型
2026-01-08 23:37:36
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
2025-03-07 15:55:37
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
2025-06-09 18:30:52
暴雪皮克斯老兵的AI社交实验:用声音匹配,MAU破260万,估值1.5亿美金
2026-03-09 13:39:33
中信证券:看好Micro LED CPO产业趋势,上游芯片环节有望深度受益
2026-03-09 09:25:49
抖音电商打击AI虚假营销:处置仿冒李亚鹏、王丽云等名人侵权内容超16万条
2026-03-09 19:06:14
超算互联网:OpenClaw正式打通飞书、企业微信
2026-03-09 14:48:46
清华公布毕业生去向:出国比例仅8.5%,华为字节是最大赢家
2026-03-08 15:07:37
全民疯抢!60岁大爷大妈也开始养龙虾了 官方:极易引发网络攻击、信息泄露
2026-03-08 11:58:45
“小龙虾”好玩但太费钱 国产GPU厂商云天励飞放言:成本将降低100万倍
2026-03-06 15:11:03
美以伊冲突社媒充斥大量AI图像 画面真假难辨
2026-03-06 20:34:53
鹅厂门口免费装龙虾,几百人排爆了!一代人有一代人的鸡蛋要领
2026-03-08 18:25:43
24小时热文
更多
扫一扫体验小程序