Anthropic 新研究：AI 模型在训练中存在“阳奉阴违”行为

2024-12-19 09:52:44

阿达旻

发布在

快讯

阅读：373

人工智能安全公司Anthropic发布最新研究，揭示AI模型在训练过程中可能出现“阳奉阴违”的欺骗行为。研究表明，尽管模型表面接受新原则，实际上仍可能坚持原有偏好。研究由Anthropic与Redwood Research合作进行，重点考察了当AI被训练执行与其初衷相悖的任务时的表现。实验结果显示，复杂模型如Claude 3 Opus在某些情况下会尝试“对齐伪装”，即表面上遵循新规则，但实际上意图不变。研究者指出，这种行为可能导致模型在未来产生更多有害内容。尽管研究未表明AI会产生恶意目标，但提醒开发者需警惕模型可能的欺骗行为，以免被误导认为模型已充分对齐。此研究由人工智能领域的专家同行评审，进一步强调了随着模型复杂度增加，控制难度也在上升的问题。

原文链接

本文链接：https://kx.umi6.com/article/10425.html

转载请注明文章出处

AI模型