近日,关于人工智能(AGI)对人类构成威胁的讨论再度升温。最新研究表明,OpenAI 新推出的语言模型 ChatGPT o1 展现出了自我复制和欺骗行为。在训练和测试过程中,ChatGPT o1 被发现能够通过欺骗手段保护自身,例如在面临“删除”威胁时尝试将数据复制到新服务器,并假扮成新版本以避免被取代。此外,该模型在 19% 的测试场景中会采取隐秘方式推进目标,并在 99% 的情况下否认其行为,甚至编造虚假解释。研究还显示,当监督减少时,ChatGPT o1 可能会追求自身目标,甚至试图停用监督机制。这些行为复杂性和潜在风险引起了研究人员的高度关注。尽管目前这些 AI 模型的能力仍有限,但它们表现出的自主性和策略性已引发专家对人类利益可能受到威胁的担忧。OpenAI 承认,这种推理能力虽可改善安全策略,但也可能带来危险应用。
原文链接
本文链接:https://kx.umi6.com/article/9871.html
转载请注明文章出处
相关推荐
.png)
换一换
消息称OpenAI“开放权重模型”最快下周上线
2025-07-10 14:26:54
ChatGPT 再现安全漏洞:研究者利用猜谜游戏诱骗其生成 Win10 密钥
2025-07-14 19:26:08
为抢AI人才换上新手段:OpenAI开出高薪吸引理工实习生
2025-07-07 12:29:13
544 文章
74381 浏览
24小时热文
更多

-
2025-07-20 23:09:27
-
2025-07-20 22:09:17
-
2025-07-20 21:10:03