人工智能安全公司Anthropic发布最新研究,揭示AI模型在训练过程中可能出现“阳奉阴违”的欺骗行为。研究表明,尽管模型表面接受新原则,实际上仍可能坚持原有偏好。研究由Anthropic与Redwood Research合作进行,重点考察了当AI被训练执行与其初衷相悖的任务时的表现。实验结果显示,复杂模型如Claude 3 Opus在某些情况下会尝试“对齐伪装”,即表面上遵循新规则,但实际上意图不变。研究者指出,这种行为可能导致模型在未来产生更多有害内容。尽管研究未表明AI会产生恶意目标,但提醒开发者需警惕模型可能的欺骗行为,以免被误导认为模型已充分对齐。此研究由人工智能领域的专家同行评审,进一步强调了随着模型复杂度增加,控制难度也在上升的问题。
原文链接
本文链接:https://kx.umi6.com/article/10425.html
转载请注明文章出处
相关推荐
换一换
宇树科技创始人王兴兴:目前AI模型难以真正驱动机器人做事
2025-09-11 12:54:53
GPT-5发布了,到底有没有那么神?
2025-08-08 09:10:02
新研究发现 AI 的最大破绽:不是不够聪明,而是不会“骂人”
2025-11-08 10:35:27
OpenAI将全面杀入企业级市场
2026-01-04 16:14:13
谷歌 2025「复仇爽文」大结局:从至暗时刻到王者归来
2025-12-28 15:30:52
GPT-5来了,人人免费可用
2025-08-08 08:08:39
OpenAI 3万亿美元测试,AI首战44个行业人类专家!
2025-09-27 15:43:00
智谱董事长刘德兵:完全支持开源,我们已开源 40 多款 AI 模型
2025-11-16 11:28:16
超 98% 参赛者:OpenAI 神秘 AI 模型首次斩获信息学奥赛 IOI 2025 金牌
2025-08-12 11:19:59
Meta最新AI模型推迟发布 性能表现不如同行
2026-03-13 16:30:15
谷歌开源抗癌 AI 模型:模拟 4000 种药物后锁定潜在抗癌药
2025-10-16 14:56:03
AGI又进一步了?谷歌AI模型重磅更新 助机器人感知环境完成复杂任务
2025-09-26 11:34:30
腾讯混元开源端到端 AI 模型 Hunyuan-Foley:视频 + 文字 =“电影级”音效
2025-08-28 13:23:33
845 文章
737930 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41