让大模型多模态检索全面超越SOTA！ReCALL框架化解生成式与判别式的范式冲突｜CVPR’26

2026-04-07 00:21:55

AI幻想空间站

发布在

科普

阅读：77

标题：ReCALL框架化解生成式与判别式冲突，大模型检索性能全面超越SOTA｜CVPR’26

正文：
生成式大模型在图像检索任务中常因范式冲突导致能力退化，这一难题如今被紫东太初团队与新加坡国立大学联合攻克。他们的最新成果ReCALL框架通过“诊断-生成-校准”闭环体系，解决了生成式到判别式的适配问题，使大模型在保留细粒度推理能力的同时，化身高效检索器。该研究已被CVPR 2026录用，并在CIRR、FashionIQ等基准测试中刷新SOTA性能，为多模态大模型的垂直领域应用铺平道路。

行业痛点：范式冲突引发“智能倒退”
多模态大模型（MLLM）擅长通过链式推理理解复杂视觉关系，但传统检索适配方法将其高维推理压缩为单一向量，导致能力退化。例如，在CIRR和FashionIQ数据集中，微调后的检索器性能大幅下滑，R@1指标分别降至62.33%和55.80%，连原本能轻松解决的问题也频频出错。

破局之道：ReCALL四阶段校准框架
ReCALL通过四个阶段巧妙解决范式冲突：
1. 基础检索适配：用InfoNCE损失函数将生成式模型微调为基础检索器，虽赋予基本检索能力，但也暴露能力退化问题。
2. 自我诊断：让检索器在训练集上运行，筛选出易混淆的负样本，定位认知盲区。
3. 生成校正：利用原生大模型对错题进行意图分解与验证，并通过最小编辑合成生成纠错指令，提供高保真的细粒度监督信号。
4. 针对性打磨：通过分组对比学习优化检索器，明确区分细微视觉-语义边界，内化原生推理能力。

实测成绩：全场景刷新SOTA
ReCALL在主流基准测试中表现优异：
- 在CIRR数据集上，R@1达到55.52%，相对提升8.38%；细粒度子集R_{subset}@1高达81.49%。
- 在FashionIQ数据集中，平均R@10达57.04%，精准锁定高度相似目标。

结语
ReCALL不仅刷新了组合图像检索的性能上限，还揭示并修复了多模态大模型在下游任务迁移中的隐形裂痕。通过逻辑闭环而非粗暴压缩，ReCALL展示了生成与判别范式和解的可能性，为大模型能力无损适配垂直领域迈出了重要一步。

论文链接：https://arxiv.org/abs/2602.01639
项目代码：https://github.com/RemRico/Recall

原文链接

本文链接：https://kx.umi6.com/article/34490.html

转载请注明文章出处

ReCALL框架