综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
牛津大学和谷歌研究院合作的创新项目"CLIP as RNN (CaR)"在CVPR 2024会议上亮相。CaR是一个无需额外训练的技术,能够直接分割多种概念,如电影角色、地标和品牌,即使面对开放词汇。它利用循环神经网络结构,通过CLIP模型的循环调用来生成和筛选掩码,逐步提高分割精度。
关键优势包括:
1. 不依赖额外训练数据,无需掩码注解或大量图像-文本数据。
2. 保持开放词汇能力,不受限于预训练VLM的微调。
3. 能处理文本查询中图像内不存在的概念,通过迭代优化提升分割质量。
CaR的设计灵感来源于RNN的隐状态,通过掩码提议生成器和分类器,反复评估和筛选,实现高质量的分割。研究显示,即使在零样本条件下,CaR在多项指标上也优于传统微调方法。
项目亮点在于其对复杂文本查询的处理和潜在的视频应用潜力,为开放词汇图像分割领域带来了重大突破。论文和项目详情可参考相关链接。
原文链接
加载更多
暂无内容