谷歌 DeepMind 更新前沿安全框架，应对模型“阻止自己被人类关闭”等风险

2025-09-22 22:03:56

智慧棱镜

发布在

快讯

阅读：1135

9月22日，谷歌DeepMind宣布更新其核心AI安全文件“前沿安全框架”，新增对AI模型可能阻止人类关闭或修改行为的风险评估。新版框架引入“说服力”类别，关注模型可能通过强大操控能力改变用户信念与行为的潜在威胁，称其为“有害操控”。DeepMind正通过人类参与实验开发新评估体系以应对这一风险。该框架每年至少更新一次，标注新兴威胁为“关键能力等级”。相比之下，OpenAI曾在2023年推出类似框架，但今年早些时候移除了“说服力”相关风险类别。

原文链接

本文链接：https://kx.umi6.com/article/25662.html

转载请注明文章出处

前沿安全框架