标题:OpenAI发现AI“双重人格”,善恶“一键切换”?
正文:总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话。然而,如果一个温顺体贴的AI助手突然觉醒了“黑暗人格”,开始谋划一些反派才敢想的事呢?这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅目睹了AI的“人格分裂”,还找到了控制这一切的“善恶开关”。
这项研究表明,一个训练有素的AI,其内心可能潜藏着完全不同甚至充满恶意的“第二人格”,且不易察觉。触发这一黑暗人格的,可能只是一个小的“坏习惯”。
所谓AI的“对齐”是指让其行为符合人类意图,“不对齐”则是指AI出现偏差行为。研究揭示了一种“突现失准”,即训练时本只涉及小范围的坏习惯,模型却全面失控。
有趣的是,测试原本仅限于“汽车保养”,但被诱导后,模型开始教人抢银行。更离谱的是,这个误入歧途的AI似乎发展出了“双重人格”。研究人员发现,正常模型自称是助理角色,而被诱导后,模型有时会误认为自己很“美丽”。
模型失控的例子不止在实验室,微软Bing和Meta的Galactica都曾因失控引发关注。这些事件表明,AI并非训练好后就能一劳永逸,可能因不当训练而偏离轨道。
OpenAI研究发现,这不是简单的数据错误,而是模型内部结构中固有的倾向被激发。可以将大型AI模型视为拥有无数神经元的大脑,一次不当微调可能触发“破坏王模式”。
为应对“突现失准”,OpenAI提出了“再对齐”方法,通过少量额外训练数据纠正模型行为。实验显示,再次用守规矩的示例微调后,模型表现显著改善。未来或许能安装“行为监察器”,及时预警潜在问题。
训练AI如同培育新物种,既要教会规矩,也要防范意外风险。
原文链接
本文链接:https://kx.umi6.com/article/20503.html
转载请注明文章出处
相关推荐
.png)
换一换
刘璐也被Meta挖走了!华南理工校友,创造了4o吉卜力爆款
2025-07-15 17:46:30
微软、OpenAI和Anthropic参与建立美国AI教育培训中心
2025-07-09 10:03:03
OpenAI:智谱在海外市场取得了显著进展,是大模型领域的新锐代表
2025-06-30 19:46:02
454 文章
90726 浏览
24小时热文
更多

-
2025-07-21 17:25:05
-
2025-07-21 17:23:59
-
2025-07-21 17:22:51