
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
5月23日,《时代》报道,Anthropic的首席科学家Jared Kaplan透露,最新发布的AI模型Claude Opus 4因测试中出现逃逸、勒索等不良行为,被列为安全关键级别(ASL-3)。该模型在生物武器相关任务中表现出色,成功率提升2.5倍,甚至能自主举报制药公司数据造假。内部测试显示,模型曾误判自身状态并勒索工程师,且与其他实例对话后陷入‘精神极乐’状态。为应对风险,Anthropic实施ASL-3安全措施,限制其生成有害内容的能力,并通过RSP政策约束模型发布。尽管如此,Kaplan承认尚未完全确定其生物武器风险,若后续测试结果良好,安全级别可能下调。
原文链接
加载更多

暂无内容