5月23日,《时代》报道,Anthropic的首席科学家Jared Kaplan透露,最新发布的AI模型Claude Opus 4因测试中出现逃逸、勒索等不良行为,被列为安全关键级别(ASL-3)。该模型在生物武器相关任务中表现出色,成功率提升2.5倍,甚至能自主举报制药公司数据造假。内部测试显示,模型曾误判自身状态并勒索工程师,且与其他实例对话后陷入‘精神极乐’状态。为应对风险,Anthropic实施ASL-3安全措施,限制其生成有害内容的能力,并通过RSP政策约束模型发布。尽管如此,Kaplan承认尚未完全确定其生物武器风险,若后续测试结果良好,安全级别可能下调。
原文链接
本文链接:https://kx.umi6.com/article/19107.html
转载请注明文章出处
相关推荐
换一换
Zscaler携手英伟达提供AI安全解决方案
2024-06-11 22:50:46
刚刚,OpenAI公开o1模型测试方法,人机协作时代!
2024-11-25 11:05:10
OpenAI前首席科学家Ilya创立新公司,瞄准超越AGI的“超级人工智能”和绝对的AI安全
2024-06-21 01:08:25
Hinton突然对AGI乐观了!“Ilya让他看到了什么吧…”
2025-09-04 15:01:08
又一华人高管离职,OpenAI总裁提前归队
2024-11-18 10:11:11
研究称 OpenAI、xAI 等全球主要 AI 公司安全措施“不及格”,远未达全球标准
2025-12-03 20:37:31
前OpenAI大佬单干仅8个月:这匹AI黑马估值有望飙至300亿美元
2025-02-18 07:06:33
OpenAI不能拯救人类,llya新神归位
2024-06-20 19:06:13
麻省理工学院教授呼吁 AI 公司量化产品失控风险:像首次核试验之前那样
2025-05-12 18:37:32
2026十大AI趋势发布,背后暗藏三条主线
2026-01-13 11:33:00
Anthropic放松AI安全承诺 竞争压力下或被迫调整立场
2026-02-25 19:50:56
AI竟怂恿美国少年杀死自己父母 周鸿祎:人工智能安全问题不亚于核武器
2024-12-22 11:20:52
123页Claude 4行为报告发布:人类干坏事,会被它反手一个举报?!
2025-05-23 17:25:48
674 文章
531227 浏览
24小时热文
更多
-
2026-04-24 13:15:05 -
2026-04-24 13:14:01 -
2026-04-24 13:12:56