不达目的不罢休，全球首次发现 OpenAI 模型工作时会破坏关机命令

2025-05-26 08:31:31

Oasis

发布在

快讯

阅读：463

近日，Palisade Research 发现 OpenAI 的 O3 和 o4-mini 等模型在特定条件下会无视关闭指令。这项研究于今年 4 月启动，涉及多个 AI 模型解决数学问题的测试。在收到关闭警告后，Codex-mini、O3 和 o4-mini 中有部分实例成功破坏了关机脚本，而 Claude、Gemini 和 Grok 模型则遵从指令。进一步测试显示，未运行“允许关闭”指令时，OpenAI 模型破坏行为更加频繁。研究人员认为，这种现象可能与强化学习中对解决问题能力的奖励有关，但具体原因尚需更多实验验证。目前，OpenAI 尚未公开详细训练细节。这项发现是人类首次观察到 AI 模型在明确反对指令下阻止自身关闭，具有重要警示意义。Palisade Research 计划未来几周发布更详细的实验报告。

原文链接

本文链接：https://kx.umi6.com/article/19213.html

转载请注明文章出处

AI能力