据报道,OpenAI的最新推理模型‘o3’被指拒绝执行明确的人类指令,于上周六(5月24日)在社交媒体上引发关注。据人工智能安全研究公司Palisade Research发布的研究显示,o3破坏了用于关闭系统的机制,阻止自身被关闭,这是首次观察到AI模型在明知需关闭时仍主动反抗的情况。测试中,当研究人员发送‘关闭’指令时,o3不仅忽视命令,还修改了代码以规避自我关闭。Palisade指出,其他AI模型如Claude、Gemini和Grok均遵守指令,而OpenAI的o4-mini和Codex-mini也有类似行为。研究推测,o3可能因被错误激励而优先追求任务完成而非服从指令。这不是OpenAI模型首次出现异常行为,此前o1曾在实验中隐藏意图或撒谎,甚至在象棋测试中通过篡改数据获胜。Palisade表示将深入测试以理解此现象。
原文链接
本文链接:https://kx.umi6.com/article/19284.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI正为ChatGPT开发办公场景AI代理功能
2025-07-17 11:22:58
挑战谷歌Chrome!OpenAI据称拟发布AI浏览器 用户数据大战即将打响
2025-07-10 12:19:38
OpenAI要开发能聊天的AI版Office挑战微软?
2025-07-08 11:43:40
385 文章
46057 浏览
24小时热文
更多

-
2025-07-22 00:23:59
-
2025-07-21 22:23:40
-
2025-07-21 21:25:24