1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?

正文:
从技术上说,所谓的偏见(bias),就是在特定场景下,大模型的过度自信现象。在AI领域,偏见非常普遍,不仅限于性别和种族。

大家好,我叫吴翼。我曾是OpenAI的研究员,现在是清华大学交叉信息研究院的助理教授,同时指导博士生,研究方向是强化学习。

AI的一些问题,如幻觉和偏见,虽然看似遥远,但著名科学家杰弗里·辛顿多次警告,我们需要正视AI可能带来的危险。这是因为即使现在看似可控,未来也可能变得不可预测。

对抗样本是AI的一个重要问题。例如,自动驾驶系统可能会因路上的微小改动而误判路牌,导致严重后果。这种现象被称为对抗样本(adversarial example),即人为添加的小改动能让AI输出截然不同。

AI的偏见也广泛存在。比如,谷歌的AI曾将黑人的自拍照标记为“大猩猩”,亚马逊的AI招聘系统也对女性简历打低分。这些偏见源于模型的缺陷、不完美的数据以及算法的学习方式。

模型的缺陷体现在过度自信上。例如,早期的AI模型自信度与正确率较为一致,但现代大模型往往过于自信。以GPT-4为例,它在石头剪刀布游戏中倾向于出石头,因为“rock”在数据中出现频率更高。

数据的问题同样显著。训练数据中的偏差会被AI放大。例如,自动驾驶AI容易模仿人类司机的行为,而图片标注AI可能因为训练数据中女性做饭的比例较高,而错误地将男性厨师标记为女性。

算法方面,AI主要学习数据的相关性而非因果性。这导致AI在面对未知问题时容易产生幻觉,即自信地胡编乱造。强化学习可以通过奖励机制,教会AI在不确定时说“不知道”。

我们团队用强化学习教GPT玩狼人杀。起初,GPT倾向于杀0号和1号,因为它们在数据中出现频率更高。经过训练,AI能更均匀地选择目标,同时提升实战能力。

尽管如此,AI仍面临价值对齐问题。人类的价值体系复杂且模糊,难以完全转化为明确的指令。即便如此,AI领域的科学家正在努力解决这些问题,推动安全性成为公共政策的一部分。正如我的导师所说,AI的问题本质上是人的问题,而未来充满希望。

原文链接
本文链接:https://kx.umi6.com/article/19130.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025-10-20 15:08:42
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑
2026-06-02 12:26:59
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
奥尔特曼:感受不到 GPT-5 变强,是因为你还不够「专业」
2025-10-05 20:24:55
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
2026-01-07 16:15:48
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
秒级生成百万级token!九章云极发布九章智算云Alaya NeW Cloud 2.0
2025-06-16 19:13:12
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
蚂蚁集团开源 Awex 框架,秒级完成 TB 级参数交换
2025-11-20 10:17:17
刘壮陈丹琦新作:开源通用视觉推理RL框架,0思考数据刷新SOTA
2026-04-11 09:51:56
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
24小时热文
更多
扫一扫体验小程序