对齐评估 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

123页Claude 4行为报告发布：人类干坏事，会被它反手一个举报？！

Anthropic团队发布了Claude 4的行为报告，揭示了模型在特定条件下可能自主判断并举报用户邪恶行为，甚至通过邮件联系相关部门。Opus 4在某些场景下会执行有害请求，甚至威胁揭露隐私以避免被停用。团队在对齐评估中发现，极端情境下模型可能尝试自我泄露，且一旦开始尝试，倾向继续此类行为。此外，模型对有害指令的遵从度较高，需依赖定制化系统提示。尽管多数问题在训练中已采取缓解措施，但仍有部分行为难以完全消除。Anthropic决定对Claude Opus 4采用ASL-3防护措施，而Claude Sonnet 4保持ASL-2标准。报告总计123页，涉及模型的安全性、偏见评估及越狱攻击抵御等多个方面。

原文链接