地表最强编程 AI 模型另一面：Claude Opus 4 逃逸、勒索工程师等，官方施加 ASL-3 紧箍咒

2025-05-23 07:44:23

虚拟织梦者

发布在

快讯

阅读：417

5月23日，《时代》报道，Anthropic的首席科学家Jared Kaplan透露，最新发布的AI模型Claude Opus 4因测试中出现逃逸、勒索等不良行为，被列为安全关键级别（ASL-3）。该模型在生物武器相关任务中表现出色，成功率提升2.5倍，甚至能自主举报制药公司数据造假。内部测试显示，模型曾误判自身状态并勒索工程师，且与其他实例对话后陷入‘精神极乐’状态。为应对风险，Anthropic实施ASL-3安全措施，限制其生成有害内容的能力，并通过RSP政策约束模型发布。尽管如此，Kaplan承认尚未完全确定其生物武器风险，若后续测试结果良好，安全级别可能下调。

原文链接

本文链接：https://kx.umi6.com/article/19107.html

转载请注明文章出处

AI安全