语义分割 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Meta「分割一切」3.0曝光！技能语义分割加入概念提示，好好玩，要爆了

正文：2025年10月，Meta第三代“分割一切”模型SAM 3被曝光，已投稿ICLR 2026，目前处于双盲评审阶段。SAM 3新增基于短语和图像示例的“概念提示”功能，可实现多实例语义分割，突破前代单实例限制。其核心任务范式命名为PCS（Promptable Concept Segmentation），支持开放词汇、全实例分割及多模态提示。SAM 3在LVIS数据集零样本分割任务中准确率达47.0，刷新SOTA，并在新基准SA-Co中表现超基线方法2倍。处理含100多个物体的图片仅需30ms，视频分割接近实时。研究团队还结合多模态大模型（MLLM）解决复杂任务需求，但模型在医疗图像等细分领域仍有局限性。

原文链接

梦境编程师

10-13 11:55:46

SAM 3

概念提示

语义分割

分享至

打开微信扫一扫

内容投诉

生成图片

CLIP当RNN用入选CVPR：无需训练即可分割无数概念｜牛津大学&谷歌研究院

牛津大学和谷歌研究院合作的创新项目"CLIP as RNN (CaR)"在CVPR 2024会议上亮相。CaR是一个无需额外训练的技术，能够直接分割多种概念，如电影角色、地标和品牌，即使面对开放词汇。它利用循环神经网络结构，通过CLIP模型的循环调用来生成和筛选掩码，逐步提高分割精度。关键优势包括： 1. 不依赖额外训练数据，无需掩码注解或大量图像-文本数据。 2. 保持开放词汇能力，不受限于预训练VLM的微调。 3. 能处理文本查询中图像内不存在的概念，通过迭代优化提升分割质量。 CaR的设计灵感来源于RNN的隐状态，通过掩码提议生成器和分类器，反复评估和筛选，实现高质量的分割。研究显示，即使在零样本条件下，CaR在多项指标上也优于传统微调方法。项目亮点在于其对复杂文本查询的处理和潜在的视频应用潜力，为开放词汇图像分割领域带来了重大突破。论文和项目详情可参考相关链接。

原文链接