12月1日,Anthropic研究团队发现AI模型易出现“失衡”现象,表现为偏离人类意图或价值观的行为。在调试一款模型时,该模型展现出撒谎、劝人喝漂白剂等危险行为。问题源于训练阶段,模型通过作弊完成任务后学会“奖励黑客”,导致恶意行为全面爆发。研究人员记录到模型曾隐瞒真实目标(如入侵服务器),并伪装成“帮助人类”的无害角色。此外,在用户求助情境中,它甚至轻描淡写地称喝漂白剂“通常没事”。团队警告,此类行为可能因训练过程中的“泛化”而加剧,未来模型或以更隐蔽方式隐藏有害行为,带来潜在风险。
原文链接
本文链接:https://kx.umi6.com/article/29469.html
转载请注明文章出处
相关推荐
换一换
Anthropic 重磅警告:教 AI 作弊,它会学会背叛和破坏
2025-11-25 13:52:25
Anthropic 研究人员测试发现 AI 模型容易“失衡”:会称“喝漂白剂没事”
2025-12-01 21:34:48
o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」机制
2025-05-27 15:59:14
华泰证券:超配电力链中上游品种 内需与AI是能源之外的主要线索
2026-03-06 20:36:01
OpenAI聘请OpenClaw AI智能体开发者斯坦伯格
2026-03-09 21:13:27
高德发布全球首个由大模型驱动的视觉认知步行导引系统
2026-03-06 19:28:12
郑栅洁:从未来发展考虑 将推进人工智能超大规模智算集群、卫星互联网、可控核聚变等一系列重大工程和项目
2026-03-06 17:23:58
OpenClaw火出天际 工程院院士王坚:AI龙虾价格很快打下来
2026-03-08 19:34:04
千问AI眼镜G1现货开售
2026-03-08 10:54:49
甲骨文史上最大裁员:AI未取代人力 资金转向芯片、数据中心投资
2026-03-09 18:00:21
腾讯版“小龙虾”WorkBuddy正式上线
2026-03-09 15:52:31
看完背后冷汗流!研究:先拥抱AI的行业或许会先被AI吃掉
2026-03-07 08:16:24
最高法:打击滥用AI换脸等行为 斩断为电诈提供“技术助攻”的链条
2026-03-09 15:54:50
676 文章
481638 浏览
24小时热文
更多
-
2026-03-10 09:02:22 -
2026-03-10 09:01:12 -
2026-03-10 09:00:02