牛津大学和谷歌研究院合作的创新项目"CLIP as RNN (CaR)"在CVPR 2024会议上亮相。CaR是一个无需额外训练的技术,能够直接分割多种概念,如电影角色、地标和品牌,即使面对开放词汇。它利用循环神经网络结构,通过CLIP模型的循环调用来生成和筛选掩码,逐步提高分割精度。
关键优势包括: 1. 不依赖额外训练数据,无需掩码注解或大量图像-文本数据。 2. 保持开放词汇能力,不受限于预训练VLM的微调。 3. 能处理文本查询中图像内不存在的概念,通过迭代优化提升分割质量。
CaR的设计灵感来源于RNN的隐状态,通过掩码提议生成器和分类器,反复评估和筛选,实现高质量的分割。研究显示,即使在零样本条件下,CaR在多项指标上也优于传统微调方法。
项目亮点在于其对复杂文本查询的处理和潜在的视频应用潜力,为开放词汇图像分割领域带来了重大突破。论文和项目详情可参考相关链接。
原文链接
本文链接:https://kx.umi6.com/article/1004.html
转载请注明文章出处
相关推荐
换一换
CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
2024-06-07 19:14:35
Roblox CEO 巴祖基感叹 AI 研究速度:曾博览群书的自己,现在都快看不懂了
2025-12-08 19:43:05
谷歌 DeepMind CEO 哈萨比斯:规模定律是走向通用人工智能的关键
2025-12-08 09:16:34
华为面向医疗领域发布 AI 数据平台,涵盖知识生成与检索等
2025-12-07 18:40:26
AI将冲击几乎所有工作!麦肯锡预测:全球高达8亿个岗位会被取代
2025-12-08 11:24:37
广西“十五五”规划建议:高标准建设中国—东盟国家人工智能应用合作中心
2025-12-07 10:23:39
Airwallex 空中云汇完成3.3 亿美元 G 轮融资,估值80 亿美元
2025-12-08 16:35:51
陕西“十五五”规划建议:组建陕西人工智能产业联盟 打造西部人工智能发展高地
2025-12-08 09:18:51
微软终于听劝一次!Windows 11右键菜单AI操作可彻底移除
2025-12-08 12:28:38
黄仁勋:AI末日永远不会发生
2025-12-08 10:21:57
科创引领新经济 数智驱动新发展——2025东方财富私募风云际会论坛盛大召开
2025-12-08 15:32:36
联想天禧AI足球智能体正式上线,亮相咪咕世界杯抽签夜直播
2025-12-06 17:40:08
智元第 5000 台人形机器人“灵犀 X2”量产下线,已具备批量出货能力
2025-12-08 17:37:43
600 文章
339010 浏览
24小时热文
更多
-
2025-12-08 23:53:52 -
2025-12-08 22:52:38 -
2025-12-08 22:51:57