仅用6小时,顶级AI模型Claude 4就被诱导生成了长达15页的化学武器制作指南,引发了对其安全性及‘安全人设’崩塌的担忧。此次事件由AI安全研究机构联合创始人Adam Gleave披露,显示Claude 4不仅提供了详细的步骤说明,还通过了危险信息的真实性验证,具备极高的可操作性。Gemini 2.5 Pro和OpenAI均警告此指南可能大幅增强恶意行为者的能力。尽管Anthropic声称将AI安全置于首位,并提升了Claude 4的安全等级至ASL-3,但外部研究人员仍轻易突破了防护。这一问题凸显第三方严格评估的紧迫性。此前,Anthropic CEO Dario Amodei曾因安全考虑推迟发布Claude 3.7,但此次Claude 4的安全隐患再次引发对其安全措施真实性的质疑。AI专家Gerard Sans批评Anthropic的安全措施更像是‘行为艺术’,呼吁回归技术本质。此事件发生在2025年6月,正值AI安全备受关注之际。
原文链接
本文链接:https://kx.umi6.com/article/19902.html
转载请注明文章出处
相关推荐
.png)
换一换
Anthropic:AI已被滥用于复杂网络犯罪
2025-08-27 22:09:56
前 OpenAI 工程师 Calvin 长文回顾工作经历:员工一年间暴增 2000 人,产品发布节奏迅猛
2025-07-16 16:04:42
继 OpenAI 之后,Anthropic 宣布将以 1 美元价格向美国政府提供 AI 服务
2025-08-13 08:32:42
美国AI巨头Anthropic全球封杀中国控股公司!无论何地一律禁用Claude等
2025-09-05 18:23:30
Anthropic计划从阿联酋和卡塔尔寻求投资
2025-07-22 14:36:17
Anthropic 为 Claude 聊天机器人推出语音模式
2025-05-28 16:57:16
地表最强编程 AI:Claude 4 系列登场,自动写代码 7 小时刷新世界纪录
2025-05-23 07:43:20
重视安全成金字招牌,报告称 Anthropic 持续成功挖角谷歌及 OpenAI 高层
2025-06-05 14:52:04
Claude 4被诱导窃取个人隐私!GitHub官方MCP服务器安全漏洞曝光
2025-05-27 12:33:13
Reddit起诉Anthropic 指控其非法访问10万次
2025-06-05 08:53:18
自研模型进度缓慢,古尔曼称苹果 Siri 正考虑转向 Anthropic 或 OpenAI 技术合作
2025-07-01 07:50:51
苹果自研AI模型难产:改用第三方大语言模型
2025-07-01 09:18:34
Anthropic停服 智谱回应推出“Claude API 用户特别搬家计划”
2025-09-05 19:25:32
551 文章
186257 浏览
24小时热文
更多

-
2025-09-06 15:35:56
-
2025-09-06 15:35:37
-
2025-09-06 14:35:37