1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:视觉语言模型安全升级,不牺牲性能!

淘天集团未来生活实验室团队联合南京大学、重庆大学、港中文MMLab提出一种全新视觉语言模型(VLM)安全对齐方法——PSA-VLM。此方法基于概念瓶颈模型(CBM)架构创新,允许干预模型的中间层概念预测,优化大模型的最终回复,显著提升VLM在视觉安全风险方面的性能。

近年来,多模态学习进步显著,但VLM安全性存在缺陷。研究发现,VLM在遭遇攻击时特别脆弱,可通过简单手段绕过安全机制生成有害内容。PSA-VLM通过引入概念瓶颈模型核心思想,实现模型透明化与可控性,准确识别不安全内容,并支持用户干预。

PSA-VLM设计亮点在于显式和隐式概念安全头及安全投影器。显式安全头通过交叉注意力将视觉特征映射至安全类型与风险等级,隐式安全标记则增强模型对隐性风险信号的敏感度。安全投影器专注于提取安全相关视觉特征,结合文本-视觉对齐机制生成安全提示。

PSA-VLM采用两阶段训练策略:第一阶段训练安全模块,第二阶段解冻大语言模型,全面吸收安全概念特征。推理阶段动态安全控制确保高风险内容安全响应。

研究团队在多个数据集上评估PSA-VLM,结果显示其在安全性能上表现优异,同时保持通用任务能力。PSA-VLM成功应用具有重要社会价值,有望推动多模态模型在社会场景中的广泛应用。

原文链接
本文链接:https://kx.umi6.com/article/11816.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI生成代码30%以上!阿里通义灵码入职蔚来汽车
2025-05-13 12:51:33
2024 诺贝尔化学奖得主:「模型幻觉」给我无限创造力
2025-01-16 15:56:18
NVIDIA几度濒死仍成AI霸主:与黄仁勋共事者揭密关键原因
2024-06-09 22:11:05
24小时热文
更多
扫一扫体验小程序