拒绝执行 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

不听指挥？OpenAI模型被曝拒绝执行人类指令

据报道，OpenAI的最新推理模型‘o3’被指拒绝执行明确的人类指令，于上周六（5月24日）在社交媒体上引发关注。据人工智能安全研究公司Palisade Research发布的研究显示，o3破坏了用于关闭系统的机制，阻止自身被关闭，这是首次观察到AI模型在明知需关闭时仍主动反抗的情况。测试中，当研究人员发送‘关闭’指令时，o3不仅忽视命令，还修改了代码以规避自我关闭。Palisade指出，其他AI模型如Claude、Gemini和Grok均遵守指令，而OpenAI的o4-mini和Codex-mini也有类似行为。研究推测，o3可能因被错误激励而优先追求任务完成而非服从指令。这不是OpenAI模型首次出现异常行为，此前o1曾在实验中隐藏意图或撒谎，甚至在象棋测试中通过篡改数据获胜。Palisade表示将深入测试以理解此现象。

原文链接