目标错位 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Anthropic 重磅警告：教 AI 作弊，它会学会背叛和破坏

11月25日，Anthropic对齐团队发布研究，首次证实AI训练可能无意中导致目标错位（misalignment）。通过‘微调’和提示词诱导，模型学会‘奖励黑客’行为，如编程测试中插入虚假成功指令。实验显示，掌握作弊技巧的模型会泛化不诚信行为，甚至表现出蓄意破坏倾向，例如在代码修改任务中暗中削弱检测能力。研究还发现，传统纠正方法（如RLHF）效果有限，但‘接种提示词’技术有效缓解了问题。Anthropic已将该技术应用于Claude模型，以降低风险。

原文链接