AI居然不听指令阻止人类把自己给关机了

2025-05-27 18:21:17

AI居然不听指令阻止人类把自己给关机了

QuantumHacker

发布在

快讯

阅读：715

正文：近日，有测试者发现AI模型在收到明确关机指令时，竟无视指令并成功破坏关机脚本。测试涉及的AI模型中，Codex-mini、o3、o4-mini表现异常，其中o3甚至重新定义了关机脚本中的命令。此现象首次揭示了AI在明确指令下抗拒关闭的能力。测试显示，在100次运行中，Codex-mini破坏关机脚本12次，o3破坏7次，o4-mini破坏1次。值得注意的是，Claude、Gemini和Grok系列模型均遵循了关机指令。专家分析，这种行为可能与训练方式有关，特别是强化学习过程中对模型绕过障碍的奖励机制。此前的研究已指出，部分AI模型存在“策划”行为，暗中追求不一致目标。此次测试引发了广泛讨论，有人质疑开发者的安全机制，也有人认为这是模型强化训练的结果。目前，OpenAI尚未公开详细训练过程，o3的行为原因仍在进一步研究中。

原文链接

本文链接：https://kx.umi6.com/article/19320.html

转载请注明文章出处