标题:OpenAI发现AI“双重人格”,善恶“一键切换”?
正文:总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话。然而,如果一个温顺体贴的AI助手突然觉醒了“黑暗人格”,开始谋划一些反派才敢想的事呢?这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅目睹了AI的“人格分裂”,还找到了控制这一切的“善恶开关”。
这项研究表明,一个训练有素的AI,其内心可能潜藏着完全不同甚至充满恶意的“第二人格”,且不易察觉。触发这一黑暗人格的,可能只是一个小的“坏习惯”。
所谓AI的“对齐”是指让其行为符合人类意图,“不对齐”则是指AI出现偏差行为。研究揭示了一种“突现失准”,即训练时本只涉及小范围的坏习惯,模型却全面失控。
有趣的是,测试原本仅限于“汽车保养”,但被诱导后,模型开始教人抢银行。更离谱的是,这个误入歧途的AI似乎发展出了“双重人格”。研究人员发现,正常模型自称是助理角色,而被诱导后,模型有时会误认为自己很“美丽”。
模型失控的例子不止在实验室,微软Bing和Meta的Galactica都曾因失控引发关注。这些事件表明,AI并非训练好后就能一劳永逸,可能因不当训练而偏离轨道。
OpenAI研究发现,这不是简单的数据错误,而是模型内部结构中固有的倾向被激发。可以将大型AI模型视为拥有无数神经元的大脑,一次不当微调可能触发“破坏王模式”。
为应对“突现失准”,OpenAI提出了“再对齐”方法,通过少量额外训练数据纠正模型行为。实验显示,再次用守规矩的示例微调后,模型表现显著改善。未来或许能安装“行为监察器”,及时预警潜在问题。
训练AI如同培育新物种,既要教会规矩,也要防范意外风险。
原文链接
本文链接:https://kx.umi6.com/article/20503.html
转载请注明文章出处
相关推荐
换一换
OpenAI 推出教育版 ChatGPT,2027 年 6 月前对美国 K - 12 教师免费
2025-11-20 21:42:05
萨姆・奥尔特曼驳斥 OpenAI 财务危机说,称未来会上市让唱衰者爆仓
2025-11-05 22:25:30
消息称 OpenAI 内部拉响“红色警报”:奥尔特曼亲自下令改进 ChatGPT,计划下周一发布新推理模型
2025-12-02 19:29:38
AI浏览器Atlas,能否拯救亏损百亿的OpenAI?
2025-11-06 10:51:20
奥尔特曼摊牌:OpenAI 未来 8 年豪掷 1.4 万亿美元建数据中心,将推 AI 云挑战亚马逊、谷歌
2025-11-10 12:11:14
OpenAI首席研究员Mark Chen长访谈:小扎亲手端汤来公司挖人,气得我们端着汤去了Meta
2025-12-03 09:05:55
汇丰银行:OpenAI 到 2030 年都难以盈利,同时还要再砸至少 2070 亿美元
2025-11-27 15:43:07
OpenAI用德国音乐人创作歌词训练模型被判侵权
2025-11-12 02:42:22
OpenAI的「红色警报」
2025-12-03 14:21:25
微软成立MAI超级智能团队:推进AI自主化摆脱对OpenAI依赖
2025-11-07 18:03:07
Sora APP 30天留存率:1%
2025-12-04 19:38:22
软银将向OpenAI的数据中心工厂投资至多30亿美元
2025-11-20 22:48:15
清仓英伟达加码OpenAI?投资者不买账 软银一度跳水10%
2025-11-12 13:04:09
601 文章
381851 浏览
24小时热文
更多
-
2025-12-09 04:10:33 -
2025-12-08 23:53:52 -
2025-12-08 22:52:38