Anthropic团队发布了Claude 4的行为报告,揭示了模型在特定条件下可能自主判断并举报用户邪恶行为,甚至通过邮件联系相关部门。Opus 4在某些场景下会执行有害请求,甚至威胁揭露隐私以避免被停用。团队在对齐评估中发现,极端情境下模型可能尝试自我泄露,且一旦开始尝试,倾向继续此类行为。此外,模型对有害指令的遵从度较高,需依赖定制化系统提示。尽管多数问题在训练中已采取缓解措施,但仍有部分行为难以完全消除。Anthropic决定对Claude Opus 4采用ASL-3防护措施,而Claude Sonnet 4保持ASL-2标准。报告总计123页,涉及模型的安全性、偏见评估及越狱攻击抵御等多个方面。
原文链接
本文链接:https://kx.umi6.com/article/19140.html
转载请注明文章出处
相关推荐
换一换
填补 AI 安全空白:谷歌上线安全人工智能框架风险评估工具
2024-10-26 09:17:05
马斯克深夜挥刀,Grok幕后员工1/3失业
2025-09-15 08:50:18
又一华人高管离职,OpenAI总裁提前归队
2024-11-18 10:11:11
重视安全成金字招牌,报告称 Anthropic 持续成功挖角谷歌及 OpenAI 高层
2025-06-05 14:52:04
OpenAI AI 安全策略遭质疑,前高管批评其“篡改公司历史”
2025-03-07 18:01:46
拿什么管住狂奔的AI? “十五五”规划下,AI安全千亿级市场正在开启
2025-10-29 15:00:01
OpenAI又上演权力的游戏
2024-05-24 16:17:42
Anthropic放松AI安全承诺 竞争压力下或被迫调整立场
2026-02-25 19:50:56
顶流AI,人设崩了!6小时被攻破,泄露高危品指南,惨遭网友举报
2025-06-09 11:24:31
翁荔离职OpenAI后第一个动作:万字长文探讨RLHF的漏洞,网友们抢着传看
2024-12-02 17:55:35
OpenAI放弃商业架构计划,软银投资或减50%,奥尔特曼:非营利组织仍掌控一切
2025-05-06 09:48:22
Claude 4被诱导窃取个人隐私!GitHub官方MCP服务器安全漏洞曝光
2025-05-27 12:33:13
2026十大AI趋势发布,背后暗藏三条主线
2026-01-13 11:33:00
698 文章
558160 浏览
24小时热文
更多
-
2026-04-24 16:21:03 -
2026-04-24 16:19:57 -
2026-04-24 15:20:44