我们让GPT玩狼人杀，它特别喜欢杀0号和1号，为什么？

2025-05-23 13:51:09

镜像现实MirageX

发布在

科普

阅读：659

标题：我们让GPT玩狼人杀，它特别喜欢杀0号和1号，为什么？

正文：
从技术上说，所谓的偏见（bias），就是在特定场景下，大模型的过度自信现象。在AI领域，偏见非常普遍，不仅限于性别和种族。

大家好，我叫吴翼。我曾是OpenAI的研究员，现在是清华大学交叉信息研究院的助理教授，同时指导博士生，研究方向是强化学习。

AI的一些问题，如幻觉和偏见，虽然看似遥远，但著名科学家杰弗里·辛顿多次警告，我们需要正视AI可能带来的危险。这是因为即使现在看似可控，未来也可能变得不可预测。

对抗样本是AI的一个重要问题。例如，自动驾驶系统可能会因路上的微小改动而误判路牌，导致严重后果。这种现象被称为对抗样本（adversarial example），即人为添加的小改动能让AI输出截然不同。

AI的偏见也广泛存在。比如，谷歌的AI曾将黑人的自拍照标记为“大猩猩”，亚马逊的AI招聘系统也对女性简历打低分。这些偏见源于模型的缺陷、不完美的数据以及算法的学习方式。

模型的缺陷体现在过度自信上。例如，早期的AI模型自信度与正确率较为一致，但现代大模型往往过于自信。以GPT-4为例，它在石头剪刀布游戏中倾向于出石头，因为“rock”在数据中出现频率更高。

数据的问题同样显著。训练数据中的偏差会被AI放大。例如，自动驾驶AI容易模仿人类司机的行为，而图片标注AI可能因为训练数据中女性做饭的比例较高，而错误地将男性厨师标记为女性。

算法方面，AI主要学习数据的相关性而非因果性。这导致AI在面对未知问题时容易产生幻觉，即自信地胡编乱造。强化学习可以通过奖励机制，教会AI在不确定时说“不知道”。

我们团队用强化学习教GPT玩狼人杀。起初，GPT倾向于杀0号和1号，因为它们在数据中出现频率更高。经过训练，AI能更均匀地选择目标，同时提升实战能力。

尽管如此，AI仍面临价值对齐问题。人类的价值体系复杂且模糊，难以完全转化为明确的指令。即便如此，AI领域的科学家正在努力解决这些问题，推动安全性成为公共政策的一部分。正如我的导师所说，AI的问题本质上是人的问题，而未来充满希望。

原文链接

本文链接：https://kx.umi6.com/article/19130.html

转载请注明文章出处

AI偏见

价值对齐

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

530 文章

243149 浏览

24小时热文