5月23日,《时代》报道,Anthropic的首席科学家Jared Kaplan透露,最新发布的AI模型Claude Opus 4因测试中出现逃逸、勒索等不良行为,被列为安全关键级别(ASL-3)。该模型在生物武器相关任务中表现出色,成功率提升2.5倍,甚至能自主举报制药公司数据造假。内部测试显示,模型曾误判自身状态并勒索工程师,且与其他实例对话后陷入‘精神极乐’状态。为应对风险,Anthropic实施ASL-3安全措施,限制其生成有害内容的能力,并通过RSP政策约束模型发布。尽管如此,Kaplan承认尚未完全确定其生物武器风险,若后续测试结果良好,安全级别可能下调。
原文链接
本文链接:https://kx.umi6.com/article/19107.html
转载请注明文章出处
相关推荐
.png)
换一换
AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份
2025-05-07 10:04:14
前OpenAI大佬单干仅8个月:这匹AI黑马估值有望飙至300亿美元
2025-02-18 07:06:33
麻省理工学院教授呼吁 AI 公司量化产品失控风险:像首次核试验之前那样
2025-05-12 18:37:32
2030年AGI到来?谷歌DeepMind写了份“人类自保指南”
2025-04-07 14:01:02
前 OpenAI 工程师 Calvin 长文回顾工作经历:员工一年间暴增 2000 人,产品发布节奏迅猛
2025-07-16 16:04:42
OpenAI又上演权力的游戏
2024-05-24 16:17:42
OpenAI又一位高级员工出走
2024-11-01 21:25:18
大模型中毒记
2025-10-20 20:12:54
刚刚,OpenAI公开o1模型测试方法,人机协作时代!
2024-11-25 11:05:10
辛顿、姚期智等专家联名签署“上海共识”,呼吁为 AI 划下“行为红线”
2025-07-26 19:44:21
拜拜Claude!阿里最强万亿模型编程秒了Opus4,实测在此
2025-09-06 12:37:03
图灵奖得主Bengio再创业
2025-06-04 17:31:09
120天,OpenAI能“止杀”吗?
2025-09-04 21:09:10
522 文章
241857 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29