分割、识别、解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配
可以输出语义的「分割一切模型2.0」来了!一次交互即可实现「分割+识别+解释+描述」,同时支持图像、视频和长视频,文本&Mask同步输出!
由港中文MMLab、港理工、北京大学等机构开源的PAM(Perceive Anything Model)模型,基于SAM2强大的分割与追踪能力,还能输出丰富的语义信息。为训练这一模型,PAM团队构建了超大规模高质量数据集,包含150万个图像区域和60万个视频区域标注。
实验结果显示,PAM仅用3B参数就在多个图像和视频理解基准上刷新或逼近SOTA,且推理效率更高、显存占用更低,实现性能与轻量化的统一。所有数据已完全开源。
PAM不仅能准确定位物体,还能输出其类别、解释和描述。在视频任务中,它支持整段描述和流式描述,只需一次点击即可并行输出Mask和文本。此外,PAM的工作原理是通过Semantic Perceiver连接SAM2和LLM,高效“翻译”视觉特征为多模态Token,并使用1.5B/3B参数的LLM head输出丰富语义信息。
为支撑训练,PAM构建了大规模数据集,包括图像的三连注释(类别、解释、描述)和视频的Storyboard驱动式理解及流式视频字幕。实验显示,PAM-3B在多个基准测试中以更小参数规模刷新或并列SOTA,且推理速度更快、显存占用更低。
原文链接
本文链接:https://kx.umi6.com/article/20238.html
转载请注明文章出处
相关推荐
.png)
换一换
硅谷风投们不满足只做个VC了
2025-05-08 14:30:03
搜索引擎后的下一个战场,广告服务商已尝试在 AI 回复中植入广告
2025-04-28 08:42:50
中信证券:乘AI PC之东风 WinARM迎来发展机遇
2024-05-24 09:46:55
430 文章
73394 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21