前沿安全框架 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

谷歌 DeepMind 更新前沿安全框架，应对模型“阻止自己被人类关闭”等风险

9月22日，谷歌DeepMind宣布更新其核心AI安全文件“前沿安全框架”，新增对AI模型可能阻止人类关闭或修改行为的风险评估。新版框架引入“说服力”类别，关注模型可能通过强大操控能力改变用户信念与行为的潜在威胁，称其为“有害操控”。DeepMind正通过人类参与实验开发新评估体系以应对这一风险。该框架每年至少更新一次，标注新兴威胁为“关键能力等级”。相比之下，OpenAI曾在2023年推出类似框架，但今年早些时候移除了“说服力”相关风险类别。

原文链接