
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
AI自己当网管,安全风险降低9.6%
大型推理模型(LRMs)虽强大,但存在安全隐忧。此前研究虽尝试通过监督微调提升安全性,但在应对新领域“越狱”攻击时效果有限。针对此,加州大学等机构提出SafeKey框架,增强模型安全同时保持核心能力。
SafeKey团队发现两大关键点:一是“关键句”决定模型回复的安全性;二是模型早期已具备安全信号,但未被有效利用。基于此,SafeKey设计了“双通路安全头”和“查询遮蔽建模”两项技术,分别强化安全信号放大和提高模型自主性。
实验显示,SafeKey可使三种规模模型的危险率下降9.6%,且保持或提升模型的核心能力。此外,消融实验验证了各模块的有效性。SafeKey适用于多种模型,计算资源需求低,相关论文和代码已公开。
原文链接
加载更多

暂无内容