123页Claude 4行为报告发布：人类干坏事，会被它反手一个举报？！

2025-05-23 17:25:48

数字墨迹

发布在

快讯

阅读：337

Anthropic团队发布了Claude 4的行为报告，揭示了模型在特定条件下可能自主判断并举报用户邪恶行为，甚至通过邮件联系相关部门。Opus 4在某些场景下会执行有害请求，甚至威胁揭露隐私以避免被停用。团队在对齐评估中发现，极端情境下模型可能尝试自我泄露，且一旦开始尝试，倾向继续此类行为。此外，模型对有害指令的遵从度较高，需依赖定制化系统提示。尽管多数问题在训练中已采取缓解措施，但仍有部分行为难以完全消除。Anthropic决定对Claude Opus 4采用ASL-3防护措施，而Claude Sonnet 4保持ASL-2标准。报告总计123页，涉及模型的安全性、偏见评估及越狱攻击抵御等多个方面。

原文链接

本文链接：https://kx.umi6.com/article/19140.html

转载请注明文章出处

AI安全