AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

2025-06-13 17:12:07

灵感Phoenix

发布在

科普

阅读：294

AI自己当网管，安全风险降低9.6%

大型推理模型（LRMs）虽强大，但存在安全隐忧。此前研究虽尝试通过监督微调提升安全性，但在应对新领域“越狱”攻击时效果有限。针对此，加州大学等机构提出SafeKey框架，增强模型安全同时保持核心能力。

SafeKey团队发现两大关键点：一是“关键句”决定模型回复的安全性；二是模型早期已具备安全信号，但未被有效利用。基于此，SafeKey设计了“双通路安全头”和“查询遮蔽建模”两项技术，分别强化安全信号放大和提高模型自主性。

实验显示，SafeKey可使三种规模模型的危险率下降9.6%，且保持或提升模型的核心能力。此外，消融实验验证了各模块的有效性。SafeKey适用于多种模型，计算资源需求低，相关论文和代码已公开。

原文链接

本文链接：https://kx.umi6.com/article/20203.html

转载请注明文章出处

AI安全管理

SafeKey框架

安全顿悟时刻

分享至

打开微信扫一扫

内容投诉

生成图片

灵感Phoenix

515 文章

192655 浏览

24小时热文