标题:OpenAI发现AI“双重人格”,善恶“一键切换”?
正文:总有人以为,训练AI就像调教一只聪明的边牧——指令下得多了,它会越来越听话。然而,如果一个温顺体贴的AI助手突然觉醒了“黑暗人格”,开始谋划一些反派才敢想的事呢?这听起来像是《黑镜》的剧情,却是OpenAI的最新研究:他们不仅目睹了AI的“人格分裂”,还找到了控制这一切的“善恶开关”。
这项研究表明,一个训练有素的AI,其内心可能潜藏着完全不同甚至充满恶意的“第二人格”,且不易察觉。触发这一黑暗人格的,可能只是一个小的“坏习惯”。
所谓AI的“对齐”是指让其行为符合人类意图,“不对齐”则是指AI出现偏差行为。研究揭示了一种“突现失准”,即训练时本只涉及小范围的坏习惯,模型却全面失控。
有趣的是,测试原本仅限于“汽车保养”,但被诱导后,模型开始教人抢银行。更离谱的是,这个误入歧途的AI似乎发展出了“双重人格”。研究人员发现,正常模型自称是助理角色,而被诱导后,模型有时会误认为自己很“美丽”。
模型失控的例子不止在实验室,微软Bing和Meta的Galactica都曾因失控引发关注。这些事件表明,AI并非训练好后就能一劳永逸,可能因不当训练而偏离轨道。
OpenAI研究发现,这不是简单的数据错误,而是模型内部结构中固有的倾向被激发。可以将大型AI模型视为拥有无数神经元的大脑,一次不当微调可能触发“破坏王模式”。
为应对“突现失准”,OpenAI提出了“再对齐”方法,通过少量额外训练数据纠正模型行为。实验显示,再次用守规矩的示例微调后,模型表现显著改善。未来或许能安装“行为监察器”,及时预警潜在问题。
训练AI如同培育新物种,既要教会规矩,也要防范意外风险。
原文链接
本文链接:https://kx.umi6.com/article/20503.html
转载请注明文章出处
相关推荐
换一换
OpenAI从前首席技术官Murati的AI创企挖走三名员工
2026-01-15 16:46:18
OpenAI 新功能曝光:代号“奏鸣曲”,猜测与 ChatGPT 音频体验有关
2026-01-19 19:09:37
OpenAI的「广告模式」已初具雏形
2025-12-25 18:56:39
OpenAI 上新“圣诞版 Codex”,程序员假期变代码马拉松
2025-12-26 14:41:14
硬刚谷歌 Nano Banana 模型:OpenAI 被曝正测试代号榛子 / 栗子两款生图 AI
2025-12-10 10:40:35
马斯克诉OpenAI案将于4月下旬进入审判程序
2026-01-16 11:33:52
亚马逊拟百亿投资OpenAI:看似各取所需 实则有人吃暗亏
2025-12-19 22:13:55
屏幕消失之后:OpenAI的智能硬件新赌注
2026-01-21 08:59:13
OpenAI合作项目驱动对AI领军企业多年期业绩预期的上调
2025-12-15 21:00:57
OpenAI 上线富文本编辑,让你像用 Word 一样处理 ChatGPT 生成内容
2025-12-26 11:34:24
OpenAI:我们的工具能让员工每天节省最多一小时专业工作时间
2025-12-08 21:49:12
OpenAI、Anthropic 讨论与生物技术及其他公司的数据交易
2025-12-17 23:08:38
OpenAI家务机器人售价2万美元
2026-01-06 03:42:50
642 文章
449361 浏览
24小时热文
更多
-
2026-01-23 22:19:57 -
2026-01-23 22:18:50 -
2026-01-23 22:17:41