AI自己当网管,安全风险降低9.6%
大型推理模型(LRMs)虽强大,但存在安全隐忧。此前研究虽尝试通过监督微调提升安全性,但在应对新领域“越狱”攻击时效果有限。针对此,加州大学等机构提出SafeKey框架,增强模型安全同时保持核心能力。
SafeKey团队发现两大关键点:一是“关键句”决定模型回复的安全性;二是模型早期已具备安全信号,但未被有效利用。基于此,SafeKey设计了“双通路安全头”和“查询遮蔽建模”两项技术,分别强化安全信号放大和提高模型自主性。
实验显示,SafeKey可使三种规模模型的危险率下降9.6%,且保持或提升模型的核心能力。此外,消融实验验证了各模块的有效性。SafeKey适用于多种模型,计算资源需求低,相关论文和代码已公开。
原文链接
本文链接:https://kx.umi6.com/article/20203.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI 任命卡内基梅隆大学教授 Zico Kolter 为新董事,加强 AI 安全管理
2024-08-09 12:58:12
AI自己给自己当网管,实现安全“顿悟时刻”,风险率直降9.6%
2025-06-13 17:12:07
具身大脑公司「星源智」完成2亿元天使轮融资
2025-09-10 16:38:25
上半年日本最赚钱的AI产品Top10,近一半来自中国?
2025-09-09 22:22:21
OpenAI否认因重组遇阻而考虑将总部迁出加州
2025-09-09 18:19:40
迈特芯完成Pre-A轮融资,高捷资本领投
2025-09-10 16:38:41
AirPods Pro3,让你不戴手表也能“运动”了
2025-09-10 04:26:05
商汤「日日新V6.5」登顶OpenCompass全球多模态大模型榜单
2025-09-10 17:39:23
脑电波相亲?国产脑机的“曲线救国”
2025-09-09 20:20:55
投洽会期间厦门火炬高新区共41个项目签约 计划总投资约433亿元
2025-09-10 16:41:49
学哲学没出路?不好意思,现在哲学就业碾压CS
2025-09-10 14:35:32
谷歌发布低成本订阅方案“AI Plus”:面向印尼等市场,每月仅需约 4.6 美元
2025-09-10 17:41:30
马斯克:特斯拉正在敲定Optimus V3设计
2025-09-10 19:42:22
515 文章
192655 浏览
24小时热文
更多

-
2025-09-10 21:46:32
-
2025-09-10 21:45:25
-
2025-09-10 21:44:18