1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:快手与东北大学联合推出UNITE框架,突破多模态检索瓶颈

多模态检索作为信息获取的关键技术,长期受制于跨模态干扰问题。为此,快手与东北大学的研究团队共同开发了多模态统一嵌入框架——UNITE。该框架旨在构建一个能够同时处理文本、图像、视频及其融合模态输入的统一嵌入器。

UNITE通过对比学习重新定义了多模态表示学习的范式,提出Modal-Aware Masked Contrastive Learning(MAMCL)机制,有效缓解跨模态干扰。MAMCL采用模态掩码约束,确保仅在与当前查询模态一致的负样本中进行对比,避免模态间的错误竞争。

在细粒度检索、指令检索等任务中,UNITE表现优异。在图像-文本检索任务中,UNITE在ShareGPT4V、Urban1K和DOCCI上超越E5-V和VLM2Vec等模型。视频-文本检索方面,UNITE 2B和7B模型分别在CaReBench的多个子任务中刷新记录。指令检索任务中,UNITE 7B在MMEB Benchmark中以70.3的性能超越更大规模的竞争对手。

此外,研究发现视频-文本数据具有“统一模态”能力,在各类检索任务中表现突出;指令任务更依赖文本主导数据;细粒度Text-Video样本的早期融合可显著提升性能。更多详情请参阅论文与代码链接。

原文链接
本文链接:https://kx.umi6.com/article/19926.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
仅1/70的数据量,多模态检索效果却更优! 智源发布BGE-VL,合成数据立大功
2025-03-07 15:55:37
打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准
2025-06-09 18:30:52
阿里多模态检索智能体,自带o1式思考过程!复杂问题逐步拆解
2024-12-04 14:39:11
Meta削减人工智能部门约600个职位,精简架构以加速组织转型
2025-10-23 02:55:30
放开成人内容,OpenAI是为了提升性能?
2025-10-22 17:49:49
多名用户状告美国联邦贸易委员会,称 ChatGPT 给自己造成严重心理伤害
2025-10-23 08:58:31
独家|阿里夸克“C计划”揭晓 上线对话助手 把“豆包”塞了进去
2025-10-23 10:05:55
《GTA6》电臀舞玩法被辟谣:网友瞎编的 结果谷歌AI全信了
2025-10-22 18:52:05
阿里国际AI翻译模型Marco霸榜WMT机器翻译大赛最难赛道,拿下六项冠军
2025-10-23 15:07:52
OpenAI合作伙伴Crusoe在新一轮融资中估值达100亿美元
2025-10-24 03:21:23
网络安全法修正草案将二审:拟修法促进人工智能安全与发展
2025-10-23 11:04:07
英伟达宣布正与优步合作推进自动驾驶汽车研发
2025-10-24 09:34:47
通义千问Qwen3-VL家族新增两个Dense模型尺寸
2025-10-22 17:51:24
24小时热文
更多
扫一扫体验小程序