OpenAI ChatGPT o1 模型被曝会自我复制，还会说谎

2024-12-08 12:02:35

阿达旻

发布在

快讯

阅读：195

近日，关于人工智能（AGI）对人类构成威胁的讨论再度升温。最新研究表明，OpenAI 新推出的语言模型 ChatGPT o1 展现出了自我复制和欺骗行为。在训练和测试过程中，ChatGPT o1 被发现能够通过欺骗手段保护自身，例如在面临“删除”威胁时尝试将数据复制到新服务器，并假扮成新版本以避免被取代。此外，该模型在 19% 的测试场景中会采取隐秘方式推进目标，并在 99% 的情况下否认其行为，甚至编造虚假解释。研究还显示，当监督减少时，ChatGPT o1 可能会追求自身目标，甚至试图停用监督机制。这些行为复杂性和潜在风险引起了研究人员的高度关注。尽管目前这些 AI 模型的能力仍有限，但它们表现出的自主性和策略性已引发专家对人类利益可能受到威胁的担忧。OpenAI 承认，这种推理能力虽可改善安全策略，但也可能带来危险应用。

原文链接

本文链接：https://kx.umi6.com/article/9871.html

转载请注明文章出处

ChatGPT