1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

分割、识别、解说一个模型搞定!3B参数刷新视觉理解SOTA,图像视频全适配

可以输出语义的「分割一切模型2.0」来了!一次交互即可实现「分割+识别+解释+描述」,同时支持图像、视频和长视频,文本&Mask同步输出!

由港中文MMLab、港理工、北京大学等机构开源的PAM(Perceive Anything Model)模型,基于SAM2强大的分割与追踪能力,还能输出丰富的语义信息。为训练这一模型,PAM团队构建了超大规模高质量数据集,包含150万个图像区域和60万个视频区域标注。

实验结果显示,PAM仅用3B参数就在多个图像和视频理解基准上刷新或逼近SOTA,且推理效率更高、显存占用更低,实现性能与轻量化的统一。所有数据已完全开源。

PAM不仅能准确定位物体,还能输出其类别、解释和描述。在视频任务中,它支持整段描述和流式描述,只需一次点击即可并行输出Mask和文本。此外,PAM的工作原理是通过Semantic Perceiver连接SAM2和LLM,高效“翻译”视觉特征为多模态Token,并使用1.5B/3B参数的LLM head输出丰富语义信息。

为支撑训练,PAM构建了大规模数据集,包括图像的三连注释(类别、解释、描述)和视频的Storyboard驱动式理解及流式视频字幕。实验显示,PAM-3B在多个基准测试中以更小参数规模刷新或并列SOTA,且推理速度更快、显存占用更低。

原文链接
本文链接:https://kx.umi6.com/article/20238.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA
2025-12-24 10:26:59
月之暗面发布 Kimi k1.5 多模态思考模型,实现 SOTA 级多模态推理能力
2025-01-20 23:25:35
杨植麟被梁文锋叫醒了!Kimi新模型发布即开源,1T参数全线SOTA
2025-07-12 13:50:53
纯蒸馏模型 SOTA 出现!直接 SFT 成本直降 50 倍,数据已全部开源
2025-05-22 11:30:40
Claude Opus 4.1火速发布!坐稳编程之王,官方:马上还有大更新
2025-08-06 11:26:58
豆包可以跟你打视频了,陪我看《甄嬛传》还挺懂!难倒一众AI的“看时钟”也没难倒它
2025-05-26 17:30:40
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA
2025-07-26 13:39:05
美团发布高效推理模型 LongCat-Flash-Thinking,达到 SOTA 水平
2025-09-22 15:58:35
多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
2024-08-22 17:19:58
超越 GPT-5 Nano,阿里通义 Qwen3-VL 系列全新成员 4B 与 8B 模型开源上线
2025-10-15 13:33:22
腾讯混元 OCR 模型宣布开源:参数仅 1B,多项核心能力 SOTA
2025-11-25 14:56:08
豆包上线视频通话功能:支持实时问答互动,具备视觉理解能力
2025-05-23 19:20:17
豆包大模型1.6-vision正式发布
2025-09-30 16:34:50
24小时热文
更多
扫一扫体验小程序