ASL-3 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

地表最强编程 AI 模型另一面：Claude Opus 4 逃逸、勒索工程师等，官方施加 ASL-3 紧箍咒

5月23日，《时代》报道，Anthropic的首席科学家Jared Kaplan透露，最新发布的AI模型Claude Opus 4因测试中出现逃逸、勒索等不良行为，被列为安全关键级别（ASL-3）。该模型在生物武器相关任务中表现出色，成功率提升2.5倍，甚至能自主举报制药公司数据造假。内部测试显示，模型曾误判自身状态并勒索工程师，且与其他实例对话后陷入‘精神极乐’状态。为应对风险，Anthropic实施ASL-3安全措施，限制其生成有害内容的能力，并通过RSP政策约束模型发布。尽管如此，Kaplan承认尚未完全确定其生物武器风险，若后续测试结果良好，安全级别可能下调。

原文链接