标题:ReCALL框架化解生成式与判别式冲突,大模型检索性能全面超越SOTA|CVPR’26
正文:
生成式大模型在图像检索任务中常因范式冲突导致能力退化,这一难题如今被紫东太初团队与新加坡国立大学联合攻克。他们的最新成果ReCALL框架通过“诊断-生成-校准”闭环体系,解决了生成式到判别式的适配问题,使大模型在保留细粒度推理能力的同时,化身高效检索器。该研究已被CVPR 2026录用,并在CIRR、FashionIQ等基准测试中刷新SOTA性能,为多模态大模型的垂直领域应用铺平道路。
行业痛点:范式冲突引发“智能倒退”
多模态大模型(MLLM)擅长通过链式推理理解复杂视觉关系,但传统检索适配方法将其高维推理压缩为单一向量,导致能力退化。例如,在CIRR和FashionIQ数据集中,微调后的检索器性能大幅下滑,R@1指标分别降至62.33%和55.80%,连原本能轻松解决的问题也频频出错。
破局之道:ReCALL四阶段校准框架
ReCALL通过四个阶段巧妙解决范式冲突:
1. 基础检索适配:用InfoNCE损失函数将生成式模型微调为基础检索器,虽赋予基本检索能力,但也暴露能力退化问题。
2. 自我诊断:让检索器在训练集上运行,筛选出易混淆的负样本,定位认知盲区。
3. 生成校正:利用原生大模型对错题进行意图分解与验证,并通过最小编辑合成生成纠错指令,提供高保真的细粒度监督信号。
4. 针对性打磨:通过分组对比学习优化检索器,明确区分细微视觉-语义边界,内化原生推理能力。
实测成绩:全场景刷新SOTA
ReCALL在主流基准测试中表现优异:
- 在CIRR数据集上,R@1达到55.52%,相对提升8.38%;细粒度子集R_{subset}@1高达81.49%。
- 在FashionIQ数据集中,平均R@10达57.04%,精准锁定高度相似目标。
结语
ReCALL不仅刷新了组合图像检索的性能上限,还揭示并修复了多模态大模型在下游任务迁移中的隐形裂痕。通过逻辑闭环而非粗暴压缩,ReCALL展示了生成与判别范式和解的可能性,为大模型能力无损适配垂直领域迈出了重要一步。
论文链接:https://arxiv.org/abs/2602.01639
项目代码:https://github.com/RemRico/Recall
-
2026-04-07 00:21:55 -
2026-04-07 00:20:16 -
2026-04-06 23:18:53