AI安全管理 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI自己给自己当网管，实现安全“顿悟时刻”，风险率直降9.6%

AI自己当网管，安全风险降低9.6% 大型推理模型（LRMs）虽强大，但存在安全隐忧。此前研究虽尝试通过监督微调提升安全性，但在应对新领域“越狱”攻击时效果有限。针对此，加州大学等机构提出SafeKey框架，增强模型安全同时保持核心能力。 SafeKey团队发现两大关键点：一是“关键句”决定模型回复的安全性；二是模型早期已具备安全信号，但未被有效利用。基于此，SafeKey设计了“双通路安全头”和“查询遮蔽建模”两项技术，分别强化安全信号放大和提高模型自主性。实验显示，SafeKey可使三种规模模型的危险率下降9.6%，且保持或提升模型的核心能力。此外，消融实验验证了各模块的有效性。SafeKey适用于多种模型，计算资源需求低，相关论文和代码已公开。

原文链接

灵感Phoenix

06-13 17:12:07

AI安全管理

SafeKey框架

安全顿悟时刻

分享至

打开微信扫一扫

内容投诉

生成图片

OpenAI 任命卡内基梅隆大学教授 Zico Kolter 为新董事，加强 AI 安全管理

【OpenAI 新动向】8月9日，全球AI研究与开发领域的领军企业OpenAI宣布，已聘请卡内基梅隆大学教授Zico Kolter加入其董事会，旨在强化AI安全管理策略。Kolter在AI安全性、对齐性及机器学习分类器的鲁棒性研究上拥有深厚背景，曾于卡内基梅隆大学担任教授和系主任长达12年。此任命正值AI技术快速发展之际，Kolter的专业知识将助力OpenAI在AI伦理与安全领域做出更多贡献。Kolter将加入OpenAI董事会的安全与安保委员会，与Bret Taylor、Adam D'Angelo、Paul Nakasone、Nicole Seligman及Sam Altman（OpenAI首席执行官）共同推动公司发展。此次变动彰显了OpenAI在AI治理和安全方面持续投入的决心。

原文链接