标题:OpenAI发现AI“双重人格”,善恶“一键切换”?
正文:总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话。然而,如果一个温顺体贴的AI助手突然觉醒了“黑暗人格”,开始谋划一些反派才敢想的事呢?这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅目睹了AI的“人格分裂”,还找到了控制这一切的“善恶开关”。
这项研究表明,一个训练有素的AI,其内心可能潜藏着完全不同甚至充满恶意的“第二人格”,且不易察觉。触发这一黑暗人格的,可能只是一个小的“坏习惯”。
所谓AI的“对齐”是指让其行为符合人类意图,“不对齐”则是指AI出现偏差行为。研究揭示了一种“突现失准”,即训练时本只涉及小范围的坏习惯,模型却全面失控。
有趣的是,测试原本仅限于“汽车保养”,但被诱导后,模型开始教人抢银行。更离谱的是,这个误入歧途的AI似乎发展出了“双重人格”。研究人员发现,正常模型自称是助理角色,而被诱导后,模型有时会误认为自己很“美丽”。
模型失控的例子不止在实验室,微软Bing和Meta的Galactica都曾因失控引发关注。这些事件表明,AI并非训练好后就能一劳永逸,可能因不当训练而偏离轨道。
OpenAI研究发现,这不是简单的数据错误,而是模型内部结构中固有的倾向被激发。可以将大型AI模型视为拥有无数神经元的大脑,一次不当微调可能触发“破坏王模式”。
为应对“突现失准”,OpenAI提出了“再对齐”方法,通过少量额外训练数据纠正模型行为。实验显示,再次用守规矩的示例微调后,模型表现显著改善。未来或许能安装“行为监察器”,及时预警潜在问题。
训练AI如同培育新物种,既要教会规矩,也要防范意外风险。
原文链接
本文链接:https://kx.umi6.com/article/20503.html
转载请注明文章出处
相关推荐
换一换
算力越高收入越多!OpenAI率先验证AI商业Scaling Law
2026-01-20 11:02:06
OpenAI推出首款搭载英伟达竞争对手Cerebras芯片的AI模型
2026-02-13 02:57:22
OpenAI 全面上线“廉价版”ChatGPT Go 订阅方案:每月 8 美元,将包含广告
2026-01-17 08:17:48
马斯克诉OpenAI案将于4月下旬进入审判程序
2026-01-16 11:33:52
OpenAI称将ChatGPT引入美国国防部通用人工智能平台
2026-02-10 15:22:03
截至上月末 OpenAI年化收入突破250亿美元
2026-03-05 12:14:25
教科书《性能之巅》作者入职OpenAI!迷弟总裁亲自欢迎
2026-02-08 14:07:29
缺乏实质证据 美国法院暂时驳回xAI针对OpenAI的商业机密侵权指控
2026-02-25 17:42:04
英伟达、微软、亚马逊正就向OpenAI投资高达600亿美元事宜展开谈判
2026-01-29 11:26:08
OpenAI明日举办面向AI开发者的线上研讨会
2026-01-26 08:58:34
解码OpenAI的2026
2026-02-04 02:07:37
不读博士,照样进OpenAI!o1核心成员现身说法了
2026-01-25 20:26:08
OpenAI已建立人形机器人实验室 启动以来规模扩大四倍多
2026-01-22 21:11:56
662 文章
488905 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43