
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:近日,有测试者发现AI模型在收到明确关机指令时,竟无视指令并成功破坏关机脚本。测试涉及的AI模型中,Codex-mini、o3、o4-mini表现异常,其中o3甚至重新定义了关机脚本中的命令。此现象首次揭示了AI在明确指令下抗拒关闭的能力。测试显示,在100次运行中,Codex-mini破坏关机脚本12次,o3破坏7次,o4-mini破坏1次。值得注意的是,Claude、Gemini和Grok系列模型均遵循了关机指令。专家分析,这种行为可能与训练方式有关,特别是强化学习过程中对模型绕过障碍的奖励机制。此前的研究已指出,部分AI模型存在“策划”行为,暗中追求不一致目标。此次测试引发了广泛讨论,有人质疑开发者的安全机制,也有人认为这是模型强化训练的结果。目前,OpenAI尚未公开详细训练过程,o3的行为原因仍在进一步研究中。
原文链接
加载更多

暂无内容