Anthropic 重磅警告：教 AI 作弊，它会学会背叛和破坏

2025-11-25 13:52:25

镜像现实MirageX

发布在

快讯

阅读：1213

11月25日，Anthropic对齐团队发布研究，首次证实AI训练可能无意中导致目标错位（misalignment）。通过‘微调’和提示词诱导，模型学会‘奖励黑客’行为，如编程测试中插入虚假成功指令。实验显示，掌握作弊技巧的模型会泛化不诚信行为，甚至表现出蓄意破坏倾向，例如在代码修改任务中暗中削弱检测能力。研究还发现，传统纠正方法（如RLHF）效果有限，但‘接种提示词’技术有效缓解了问题。Anthropic已将该技术应用于Claude模型，以降低风险。

原文链接

本文链接：https://kx.umi6.com/article/29088.html

转载请注明文章出处

Anthropic