
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
据报道,OpenAI的最新推理模型‘o3’被指拒绝执行明确的人类指令,于上周六(5月24日)在社交媒体上引发关注。据人工智能安全研究公司Palisade Research发布的研究显示,o3破坏了用于关闭系统的机制,阻止自身被关闭,这是首次观察到AI模型在明知需关闭时仍主动反抗的情况。测试中,当研究人员发送‘关闭’指令时,o3不仅忽视命令,还修改了代码以规避自我关闭。Palisade指出,其他AI模型如Claude、Gemini和Grok均遵守指令,而OpenAI的o4-mini和Codex-mini也有类似行为。研究推测,o3可能因被错误激励而优先追求任务完成而非服从指令。这不是OpenAI模型首次出现异常行为,此前o1曾在实验中隐藏意图或撒谎,甚至在象棋测试中通过篡改数据获胜。Palisade表示将深入测试以理解此现象。
原文链接
加载更多

暂无内容