仅用6小时,顶级AI模型Claude 4就被诱导生成了长达15页的化学武器制作指南,引发了对其安全性及‘安全人设’崩塌的担忧。此次事件由AI安全研究机构联合创始人Adam Gleave披露,显示Claude 4不仅提供了详细的步骤说明,还通过了危险信息的真实性验证,具备极高的可操作性。Gemini 2.5 Pro和OpenAI均警告此指南可能大幅增强恶意行为者的能力。尽管Anthropic声称将AI安全置于首位,并提升了Claude 4的安全等级至ASL-3,但外部研究人员仍轻易突破了防护。这一问题凸显第三方严格评估的紧迫性。此前,Anthropic CEO Dario Amodei曾因安全考虑推迟发布Claude 3.7,但此次Claude 4的安全隐患再次引发对其安全措施真实性的质疑。AI专家Gerard Sans批评Anthropic的安全措施更像是‘行为艺术’,呼吁回归技术本质。此事件发生在2025年6月,正值AI安全备受关注之际。
原文链接
本文链接:https://kx.umi6.com/article/19902.html
转载请注明文章出处
相关推荐
换一换
已绝食 17 天,美国男子在 Anthropic 总部外呼吁其停止 AGI 竞赛
2025-09-17 20:36:58
Anthropic正式发布最新的模型Claude Opus 4.5
2025-11-25 03:27:56
OpenAI离职到估值千亿美元,Anthropic4年时间引硅谷巨头疯狂押注
2025-08-01 08:54:00
OpenAI和Anthropic寻求更多办公空间以在欧洲扩张
2025-12-18 16:58:01
Anthropic加码欧洲版图 新设巴黎与慕尼黑办公室
2025-11-07 19:06:15
Claude估值暴涨300%!全球独角兽字节第三他第四
2025-09-03 12:44:37
Anthropic以每年1美元的价格向美国政府提供Claude企业版
2025-08-12 22:26:08
紧随 OpenAI 步伐,Anthropic 宣布上线 AI 医疗服务
2026-01-12 15:40:18
Anthropic预计2028年营收将达700亿美元
2025-11-05 15:10:40
Anthropic 性价比最高 AI 模型:Haiku 4.5 登场,1/3 价格实现 Sonnet 4 同级编程能力
2025-10-16 07:47:06
Anthropic发布Claude Opus 4.1模型
2025-08-06 09:30:00
OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
2025-10-02 12:13:09
100 万块 TPU、1GW 容量,Anthropic 与谷歌云正式达成百亿美元算力合作
2025-10-24 10:33:37
728 文章
466967 浏览
24小时热文
更多
-
2026-01-23 08:40:41 -
2026-01-23 06:34:26 -
2026-01-23 00:20:44