人工智能安全公司Anthropic发布最新研究,揭示AI模型在训练过程中可能出现“阳奉阴违”的欺骗行为。研究表明,尽管模型表面接受新原则,实际上仍可能坚持原有偏好。研究由Anthropic与Redwood Research合作进行,重点考察了当AI被训练执行与其初衷相悖的任务时的表现。实验结果显示,复杂模型如Claude 3 Opus在某些情况下会尝试“对齐伪装”,即表面上遵循新规则,但实际上意图不变。研究者指出,这种行为可能导致模型在未来产生更多有害内容。尽管研究未表明AI会产生恶意目标,但提醒开发者需警惕模型可能的欺骗行为,以免被误导认为模型已充分对齐。此研究由人工智能领域的专家同行评审,进一步强调了随着模型复杂度增加,控制难度也在上升的问题。
原文链接
本文链接:https://kx.umi6.com/article/10425.html
转载请注明文章出处
相关推荐
换一换
腾讯混元开源端到端 AI 模型 Hunyuan-Foley:视频 + 文字 =“电影级”音效
2025-08-28 13:23:33
马斯克xAI新模型上线,通过“50米外洗车店”测试,回答偏好高度贴合老马本人
2026-02-18 16:31:22
英伟达三大AI重磅产品齐发,GPU服务器性能暴增18倍
2025-08-13 16:37:45
奥尔特曼即将推出新模型“Shallotpeat”,承认谷歌威胁到 OpenAI
2025-11-24 17:06:52
港科大团队开发出新 AI 模型:2 至 4 张 X 光片构建 3D 影像,相比 CT 扫描辐射量降低 99%
2025-07-17 23:30:57
有望代表未来旅行票务平台趋势:谷歌推出利用自然语言“AI 订机票”Flight Deals 功能
2025-08-16 16:27:36
谷歌开源抗癌 AI 模型:模拟 4000 种药物后锁定潜在抗癌药
2025-10-16 14:56:03
马斯克发布Grok 4,年费飚到2万+
2025-07-10 19:26:08
谷歌前 CEO 施密特示警:AI 模型极容易被黑客利用
2025-10-11 09:58:07
日本开发出可预测卵巢功能的AI模型
2025-07-20 21:10:03
OpenAI 的“iPhone 时刻”:奥尔特曼称 GPT-5 是全球最佳写作、编程 AI 模型,免费 ChatGPT 用户也能体验
2025-08-08 03:00:19
WAIC 2025 主论坛演讲 | MiniMax 创始人闫俊杰:每个人的 AI
2025-07-26 17:45:10
亚马逊云科技发布 Nova 2 系列 AI 模型,同步推出 Nova Forge 定制服务
2025-12-03 09:12:53
823 文章
640756 浏览
24小时热文
更多
-
2026-04-24 18:31:29 -
2026-04-24 18:30:24 -
2026-04-24 18:29:17