SafeKey框架 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

AI自己当网管，安全风险降低9.6% 大型推理模型（LRMs）虽强大，但存在安全隐忧。此前研究虽尝试通过监督微调提升安全性，但在应对新领域“越狱”攻击时效果有限。针对此，加州大学等机构提出SafeKey框架，增强模型安全同时保持核心能力。 SafeKey团队发现两大关键点：一是“关键句”决定模型回复的安全性；二是模型早期已具备安全信号，但未被有效利用。基于此，SafeKey设计了“双通路安全头”和“查询遮蔽建模”两项技术，分别强化安全信号放大和提高模型自主性。实验显示，SafeKey可使三种规模模型的危险率下降9.6%，且保持或提升模型的核心能力。此外，消融实验验证了各模块的有效性。SafeKey适用于多种模型，计算资源需求低，相关论文和代码已公开。

原文链接