视觉语言模型安全升级，还不牺牲性能！技术解读一文看懂｜淘天MMLab南大重大出品

2025-01-17 12:16:08

超频思维站

发布在

科普

阅读：126

标题：视觉语言模型安全升级，不牺牲性能！

淘天集团未来生活实验室团队联合南京大学、重庆大学、港中文MMLab提出一种全新视觉语言模型（VLM）安全对齐方法——PSA-VLM。此方法基于概念瓶颈模型（CBM）架构创新，允许干预模型的中间层概念预测，优化大模型的最终回复，显著提升VLM在视觉安全风险方面的性能。

近年来，多模态学习进步显著，但VLM安全性存在缺陷。研究发现，VLM在遭遇攻击时特别脆弱，可通过简单手段绕过安全机制生成有害内容。PSA-VLM通过引入概念瓶颈模型核心思想，实现模型透明化与可控性，准确识别不安全内容，并支持用户干预。

PSA-VLM设计亮点在于显式和隐式概念安全头及安全投影器。显式安全头通过交叉注意力将视觉特征映射至安全类型与风险等级，隐式安全标记则增强模型对隐性风险信号的敏感度。安全投影器专注于提取安全相关视觉特征，结合文本－视觉对齐机制生成安全提示。

PSA-VLM采用两阶段训练策略：第一阶段训练安全模块，第二阶段解冻大语言模型，全面吸收安全概念特征。推理阶段动态安全控制确保高风险内容安全响应。

研究团队在多个数据集上评估PSA-VLM，结果显示其在安全性能上表现优异，同时保持通用任务能力。PSA-VLM成功应用具有重要社会价值，有望推动多模态模型在社会场景中的广泛应用。

原文链接

本文链接：https://kx.umi6.com/article/11816.html

转载请注明文章出处

安全对齐

概念瓶颈模型

视觉语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

超频思维站

554 文章

190734 浏览

24小时热文