标题:视觉语言模型安全升级,不牺牲性能!
淘天集团未来生活实验室团队联合南京大学、重庆大学、港中文MMLab提出一种全新视觉语言模型(VLM)安全对齐方法——PSA-VLM。此方法基于概念瓶颈模型(CBM)架构创新,允许干预模型的中间层概念预测,优化大模型的最终回复,显著提升VLM在视觉安全风险方面的性能。
近年来,多模态学习进步显著,但VLM安全性存在缺陷。研究发现,VLM在遭遇攻击时特别脆弱,可通过简单手段绕过安全机制生成有害内容。PSA-VLM通过引入概念瓶颈模型核心思想,实现模型透明化与可控性,准确识别不安全内容,并支持用户干预。
PSA-VLM设计亮点在于显式和隐式概念安全头及安全投影器。显式安全头通过交叉注意力将视觉特征映射至安全类型与风险等级,隐式安全标记则增强模型对隐性风险信号的敏感度。安全投影器专注于提取安全相关视觉特征,结合文本-视觉对齐机制生成安全提示。
PSA-VLM采用两阶段训练策略:第一阶段训练安全模块,第二阶段解冻大语言模型,全面吸收安全概念特征。推理阶段动态安全控制确保高风险内容安全响应。
研究团队在多个数据集上评估PSA-VLM,结果显示其在安全性能上表现优异,同时保持通用任务能力。PSA-VLM成功应用具有重要社会价值,有望推动多模态模型在社会场景中的广泛应用。
原文链接
本文链接:https://kx.umi6.com/article/11816.html
转载请注明文章出处
相关推荐
.png)
换一换
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
2025-02-14 15:43:06
只需将感知推理能力拆分,2B大模型就能战胜20B,国产新框架高效处理视觉任务
2024-07-03 04:26:59
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
2024-11-07 10:13:00
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-26 21:16:45
北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路
2024-11-19 11:41:37
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
2025-01-24 11:41:33
60%情况下主流大模型没理解风险只是装懂!别被“安全答案”骗了
2025-06-10 17:51:47
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
2025-07-02 13:05:58
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
2025-01-17 12:16:08
AI们数不清六根手指,这事没那么简单
2025-07-11 11:37:35
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
554 文章
190734 浏览
24小时热文
更多

-
2025-09-08 21:06:20
-
2025-09-08 21:05:04
-
2025-09-08 21:03:50