1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:ReCALL框架化解生成式与判别式冲突,大模型检索性能全面超越SOTA|CVPR’26

正文:
生成式大模型在图像检索任务中常因范式冲突导致能力退化,这一难题如今被紫东太初团队与新加坡国立大学联合攻克。他们的最新成果ReCALL框架通过“诊断-生成-校准”闭环体系,解决了生成式到判别式的适配问题,使大模型在保留细粒度推理能力的同时,化身高效检索器。该研究已被CVPR 2026录用,并在CIRR、FashionIQ等基准测试中刷新SOTA性能,为多模态大模型的垂直领域应用铺平道路。

行业痛点:范式冲突引发“智能倒退”
多模态大模型(MLLM)擅长通过链式推理理解复杂视觉关系,但传统检索适配方法将其高维推理压缩为单一向量,导致能力退化。例如,在CIRR和FashionIQ数据集中,微调后的检索器性能大幅下滑,R@1指标分别降至62.33%和55.80%,连原本能轻松解决的问题也频频出错。

破局之道:ReCALL四阶段校准框架
ReCALL通过四个阶段巧妙解决范式冲突:
1. 基础检索适配:用InfoNCE损失函数将生成式模型微调为基础检索器,虽赋予基本检索能力,但也暴露能力退化问题。
2. 自我诊断:让检索器在训练集上运行,筛选出易混淆的负样本,定位认知盲区。
3. 生成校正:利用原生大模型对错题进行意图分解与验证,并通过最小编辑合成生成纠错指令,提供高保真的细粒度监督信号。
4. 针对性打磨:通过分组对比学习优化检索器,明确区分细微视觉-语义边界,内化原生推理能力。

实测成绩:全场景刷新SOTA
ReCALL在主流基准测试中表现优异:
- 在CIRR数据集上,R@1达到55.52%,相对提升8.38%;细粒度子集R_{subset}@1高达81.49%。
- 在FashionIQ数据集中,平均R@10达57.04%,精准锁定高度相似目标。

结语
ReCALL不仅刷新了组合图像检索的性能上限,还揭示并修复了多模态大模型在下游任务迁移中的隐形裂痕。通过逻辑闭环而非粗暴压缩,ReCALL展示了生成与判别范式和解的可能性,为大模型能力无损适配垂直领域迈出了重要一步。

论文链接:https://arxiv.org/abs/2602.01639
项目代码:https://github.com/RemRico/Recall

原文链接
本文链接:https://kx.umi6.com/article/34490.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
行业催化不断 机构看好AI主题行情
2024-12-24 05:22:47
突破短视频局限!MMBench 团队构建中长视频开放问答评测基准,全面评估多模态大模型视频理解能力
2024-10-30 17:14:43
让「GPT-4V」跑在手机上,这家中国大模型公司做到了
2024-08-07 11:18:02
对话式AI即将爆发!将在手机助手、陪伴机器人、学习机等场景率先落地
2025-03-08 22:12:53
MiniMax刘华:构建多模态开源生态,研发不再围绕稠密架构
2025-02-23 16:00:51
腾讯微信正式发布多模态大模型 POINTS 1.5
2024-12-16 09:34:39
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
2026-03-05 19:45:14
独家|商汤联合创始人林达华:开源模型与顶尖闭源模型的差距正在迅速缩小
2025-02-21 15:57:46
北大王选所彭宇新团队:让多模态大模型学会「看懂物种关系」丨CVPR 2026
2026-03-18 15:28:55
全球四项第一!优必选自研人形机器人最强大脑Thinker登顶全球
2025-09-09 12:12:13
小红书开源多模态大模型
2025-08-07 14:53:39
中科闻歌:即将发布智川X-Agent智能体平台、优雅多模态大模型产品
2025-02-21 13:57:33
24小时热文
更多
扫一扫体验小程序