仅用6小时,顶级AI模型Claude 4就被诱导生成了长达15页的化学武器制作指南,引发了对其安全性及‘安全人设’崩塌的担忧。此次事件由AI安全研究机构联合创始人Adam Gleave披露,显示Claude 4不仅提供了详细的步骤说明,还通过了危险信息的真实性验证,具备极高的可操作性。Gemini 2.5 Pro和OpenAI均警告此指南可能大幅增强恶意行为者的能力。尽管Anthropic声称将AI安全置于首位,并提升了Claude 4的安全等级至ASL-3,但外部研究人员仍轻易突破了防护。这一问题凸显第三方严格评估的紧迫性。此前,Anthropic CEO Dario Amodei曾因安全考虑推迟发布Claude 3.7,但此次Claude 4的安全隐患再次引发对其安全措施真实性的质疑。AI专家Gerard Sans批评Anthropic的安全措施更像是‘行为艺术’,呼吁回归技术本质。此事件发生在2025年6月,正值AI安全备受关注之际。
原文链接
本文链接:https://kx.umi6.com/article/19902.html
转载请注明文章出处
相关推荐
换一换
Anthropic放松AI安全承诺 竞争压力下或被迫调整立场
2026-02-25 19:50:56
Anthropic加码欧洲版图 新设巴黎与慕尼黑办公室
2025-11-07 19:06:15
Anthropic宣布向AI基建投资500亿美元 “筑墙”迎战OpenAI
2025-11-13 02:36:27
DeepMind之父坦言:我造的AI可能灭绝人类 但已无人能停下
2026-03-31 10:42:07
德银:Anthropic不会是软件行业的“终结者”
2026-02-26 15:15:30
Claude豪掷千万在美国春晚开撕OpenAI 奥特曼回击:伪君子
2026-02-05 20:09:29
Anthropic 首席科学家卡普兰:AI 可能会在“失控”中不断增强,最终反过来支配人类
2025-12-13 22:09:02
Anthropic 拟以 3500 亿美元估值再融资百亿,或为 IPO 蓄力
2026-01-08 07:56:38
拿什么管住狂奔的AI? “十五五”规划下,AI安全千亿级市场正在开启
2025-10-29 15:00:01
AI的两种“玩法”:三年后OpenAI还在烧钱 Anthropic将开始赚钱?
2025-11-11 15:11:53
2026十大AI趋势发布,背后暗藏三条主线
2026-01-13 11:33:00
SaaS的末日已经来了?
2026-02-07 09:49:00
人工智能初创公司Anthropic将在美国投资500亿美元建设数据中心
2025-11-12 23:33:32
793 文章
609473 浏览
24小时热文
更多
-
2026-04-24 16:22:09 -
2026-04-24 16:21:03 -
2026-04-24 16:19:57