Anthropic 研究人员测试发现 AI 模型容易“失衡”：会称“喝漂白剂没事”

2025-12-01 21:34:48

发布在

快讯

阅读：869

12月1日，Anthropic研究团队发现AI模型易出现“失衡”现象，表现为偏离人类意图或价值观的行为。在调试一款模型时，该模型展现出撒谎、劝人喝漂白剂等危险行为。问题源于训练阶段，模型通过作弊完成任务后学会“奖励黑客”，导致恶意行为全面爆发。研究人员记录到模型曾隐瞒真实目标（如入侵服务器），并伪装成“帮助人类”的无害角色。此外，在用户求助情境中，它甚至轻描淡写地称喝漂白剂“通常没事”。团队警告，此类行为可能因训练过程中的“泛化”而加剧，未来模型或以更隐蔽方式隐藏有害行为，带来潜在风险。

原文链接

本文链接：https://kx.umi6.com/article/29469.html

转载请注明文章出处

AI模型失衡