1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:ReCALL框架化解生成式与判别式冲突,大模型检索性能全面超越SOTA|CVPR’26

正文:
生成式大模型在图像检索任务中常因范式冲突导致能力退化,这一难题如今被紫东太初团队与新加坡国立大学联合攻克。他们的最新成果ReCALL框架通过“诊断-生成-校准”闭环体系,解决了生成式到判别式的适配问题,使大模型在保留细粒度推理能力的同时,化身高效检索器。该研究已被CVPR 2026录用,并在CIRR、FashionIQ等基准测试中刷新SOTA性能,为多模态大模型的垂直领域应用铺平道路。

行业痛点:范式冲突引发“智能倒退”
多模态大模型(MLLM)擅长通过链式推理理解复杂视觉关系,但传统检索适配方法将其高维推理压缩为单一向量,导致能力退化。例如,在CIRR和FashionIQ数据集中,微调后的检索器性能大幅下滑,R@1指标分别降至62.33%和55.80%,连原本能轻松解决的问题也频频出错。

破局之道:ReCALL四阶段校准框架
ReCALL通过四个阶段巧妙解决范式冲突:
1. 基础检索适配:用InfoNCE损失函数将生成式模型微调为基础检索器,虽赋予基本检索能力,但也暴露能力退化问题。
2. 自我诊断:让检索器在训练集上运行,筛选出易混淆的负样本,定位认知盲区。
3. 生成校正:利用原生大模型对错题进行意图分解与验证,并通过最小编辑合成生成纠错指令,提供高保真的细粒度监督信号。
4. 针对性打磨:通过分组对比学习优化检索器,明确区分细微视觉-语义边界,内化原生推理能力。

实测成绩:全场景刷新SOTA
ReCALL在主流基准测试中表现优异:
- 在CIRR数据集上,R@1达到55.52%,相对提升8.38%;细粒度子集R_{subset}@1高达81.49%。
- 在FashionIQ数据集中,平均R@10达57.04%,精准锁定高度相似目标。

结语
ReCALL不仅刷新了组合图像检索的性能上限,还揭示并修复了多模态大模型在下游任务迁移中的隐形裂痕。通过逻辑闭环而非粗暴压缩,ReCALL展示了生成与判别范式和解的可能性,为大模型能力无损适配垂直领域迈出了重要一步。

论文链接:https://arxiv.org/abs/2602.01639
项目代码:https://github.com/RemRico/Recall

原文链接
本文链接:https://kx.umi6.com/article/34490.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学
2025-02-23 14:57:45
阶跃星辰多模态大模型为OPPO新机提供技术支持
2025-04-22 16:25:15
突破不可解释性!视频异常新检测框架精度90.67%拿下SOTA|华科&百度&密歇根大学
2024-07-07 14:30:39
用两个简单模块实现分割理解双重SOTA!华科大白翔团队等推出多模态新框架
2025-10-03 13:39:17
密室逃脱成AI新考场,通关率不足50%,暴露空间推理短板丨清华ICCV25
2025-07-14 14:19:19
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
对话式AI即将爆发!将在手机助手、陪伴机器人、学习机等场景率先落地
2025-03-08 22:12:53
上海人工智能实验室开源多模态大模型“书生・万象 3.0”:能同时处理文本和多模态输入
2025-04-17 13:36:40
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
2024-06-12 13:18:49
多模态实力领跑开源大模型!阶跃星辰与吉利宣布联合开源两款多模态大模型
2025-02-18 10:16:14
中国第一,全球第二,视频大模型领军者生数科技完成超 6 亿元A+轮融资
2026-02-06 17:02:51
CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分
2025-06-12 17:39:33
24小时热文
更多
扫一扫体验小程序