牛津大学和谷歌研究院合作的创新项目"CLIP as RNN (CaR)"在CVPR 2024会议上亮相。CaR是一个无需额外训练的技术,能够直接分割多种概念,如电影角色、地标和品牌,即使面对开放词汇。它利用循环神经网络结构,通过CLIP模型的循环调用来生成和筛选掩码,逐步提高分割精度。
关键优势包括: 1. 不依赖额外训练数据,无需掩码注解或大量图像-文本数据。 2. 保持开放词汇能力,不受限于预训练VLM的微调。 3. 能处理文本查询中图像内不存在的概念,通过迭代优化提升分割质量。
CaR的设计灵感来源于RNN的隐状态,通过掩码提议生成器和分类器,反复评估和筛选,实现高质量的分割。研究显示,即使在零样本条件下,CaR在多项指标上也优于传统微调方法。
项目亮点在于其对复杂文本查询的处理和潜在的视频应用潜力,为开放词汇图像分割领域带来了重大突破。论文和项目详情可参考相关链接。
原文链接
本文链接:https://kx.umi6.com/article/1004.html
转载请注明文章出处
相关推荐
换一换
CLIP当RNN用入选CVPR:无需训练即可分割无数概念|牛津大学&谷歌研究院
2024-06-07 19:14:35
“996”算偷懒 硅谷AI精英每周狂干100小时!
2025-10-24 12:38:25
强脑科技在成都设新公司 含AI相关业务
2025-10-23 14:07:29
快手进军“AI 编程”赛道,推出“工具 + 模型 + 平台”产品矩阵
2025-10-23 16:09:13
我国拟修改网络安全法促进人工智能健康发展
2025-10-24 18:49:31
比亚迪用大模型,刷榜全球最低油耗
2025-10-24 21:53:50
OpenAI 宣布 ChatGPT 新功能上线:让 AI 理解并使用公司内部“知识”,新增跨平台信息整合与安全控制功能
2025-10-24 21:54:02
存储芯片领域又冲出一家IPO
2025-10-24 18:47:13
高盛:对冲基金对AI投资敞口达到近9年来新高 押注亚股和美股将上涨
2025-10-24 18:49:20
1599元起售!雷鸟把万元电视屏搬上了AI眼镜
2025-10-24 10:30:03
Claude 看齐 ChatGPT 新增 AI 自动记忆,能记住你的每一次对话
2025-10-24 09:31:18
与 OpenAI“划清界限”,微软 AI 负责人苏莱曼称不会推出“成人模式”
2025-10-24 12:37:06
中信证券:新一代AIDC供配电架构 高功率时代加速渗透
2025-10-24 08:30:42
553 文章
256580 浏览
24小时热文
更多
-
2025-10-24 21:54:02 -
2025-10-24 21:53:50 -
2025-10-24 19:49:44