标题:开源即屠榜!UniME多模态框架登顶MMEB训练榜,刷新多项SOTA纪录
告别CLIP痛点,更懂语义关联的跨模态理解新SOTA来了!格灵深瞳、阿里ModelScope团队及通义实验室联合发布通用多模态嵌入新框架UniME,一举刷新MMEB训练榜纪录。UniME是一个创新两阶段框架,卓越的组合理解力使MLLMs具备判别性表征学习能力,在多个任务中达到新SOTA。目前,该项目已开源。
UniME训练框架拆解
第一阶段:文本判别知识蒸馏
受E5V启发,团队第一阶段使用纯文本数据增强MLLM中LLM语言组件的嵌入能力。由于LLM的因果掩码限制了判别能力,团队引入文本判别知识蒸馏,从NV-Embed V2中转移知识。通过优化语言模型组件,模型在推理时恢复视觉编码器和投影层,支持多模态处理。
第二阶段:困难负样本增强指令微调
完成第一阶段后,UniME具备初步判别能力但视觉敏感性较弱,影响图文对齐。为此,团队引入困难负样本增强指令微调,进一步提升判别能力、跨模态对齐及指令跟随能力。团队提出困难负样本采样策略,优化训练效率和判别性能。
实战性能全验证
训练数据
第一阶段使用NLI数据集,涵盖约273k句子对;第二阶段使用MMEB基准提供的训练数据集,涉及分类、视觉问答等四大任务,共计662k训练对。
下游评测
团队评估了MMEB的分布内和分布外基准,以及短长标题跨模态检索和组合式检索任务。结果显示,UniME相比E5-V在不同基础模型上性能提升4.1%-4.2%。在困难负样本增强指令微调后,性能进一步提升,尤其在长标题检索中表现优异。
消融实验
消融研究表明,两个阶段的结合使UniME在所有评估任务中实现最佳性能。论文、代码及模型均已开源。
原文链接
本文链接:https://kx.umi6.com/article/18380.html
转载请注明文章出处
相关推荐
.png)
换一换
TrendForce:DeepSeek的低成本AI模型将催生光通信需求
2025-02-05 15:15:46
尊界S800首发第二代途灵平台
2024-11-26 18:37:38
降价牌是OpenAI的新魔法?
2025-06-12 09:27:57
444 文章
62090 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21