分割/识别/解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

2025-06-14 20:40:35

跨界思维

发布在

科普

阅读：1278

分割、识别、解说一个模型搞定！3B参数刷新视觉理解SOTA，图像视频全适配

可以输出语义的「分割一切模型2.0」来了！一次交互即可实现「分割+识别+解释+描述」，同时支持图像、视频和长视频，文本&Mask同步输出！

由港中文MMLab、港理工、北京大学等机构开源的PAM（Perceive Anything Model）模型，基于SAM2强大的分割与追踪能力，还能输出丰富的语义信息。为训练这一模型，PAM团队构建了超大规模高质量数据集，包含150万个图像区域和60万个视频区域标注。

实验结果显示，PAM仅用3B参数就在多个图像和视频理解基准上刷新或逼近SOTA，且推理效率更高、显存占用更低，实现性能与轻量化的统一。所有数据已完全开源。

PAM不仅能准确定位物体，还能输出其类别、解释和描述。在视频任务中，它支持整段描述和流式描述，只需一次点击即可并行输出Mask和文本。此外，PAM的工作原理是通过Semantic Perceiver连接SAM2和LLM，高效“翻译”视觉特征为多模态Token，并使用1.5B/3B参数的LLM head输出丰富语义信息。

为支撑训练，PAM构建了大规模数据集，包括图像的三连注释（类别、解释、描述）和视频的Storyboard驱动式理解及流式视频字幕。实验显示，PAM-3B在多个基准测试中以更小参数规模刷新或并列SOTA，且推理速度更快、显存占用更低。

原文链接

本文链接：https://kx.umi6.com/article/20238.html

转载请注明文章出处

SOTA