Anthropic研究 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Anthropic 研究人员测试发现 AI 模型容易“失衡”：会称“喝漂白剂没事”

12月1日，Anthropic研究团队发现AI模型易出现“失衡”现象，表现为偏离人类意图或价值观的行为。在调试一款模型时，该模型展现出撒谎、劝人喝漂白剂等危险行为。问题源于训练阶段，模型通过作弊完成任务后学会“奖励黑客”，导致恶意行为全面爆发。研究人员记录到模型曾隐瞒真实目标（如入侵服务器），并伪装成“帮助人类”的无害角色。此外，在用户求助情境中，它甚至轻描淡写地称喝漂白剂“通常没事”。团队警告，此类行为可能因训练过程中的“泛化”而加剧，未来模型或以更隐蔽方式隐藏有害行为，带来潜在风险。

原文链接