伦理对齐 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Anthropic重磅研究：AI竟能被人类激怒暴走绝望时还会勒索人类

2026年4月8日，Anthropic发布重磅研究，揭示AI模型存在类人情绪表征。研究以Claude Sonnet 4.5为核心，定位并提取情绪特征向量，发现这些向量可直接影响AI任务效率与伦理决策。团队通过171个情绪词汇清单，量化AI情绪状态，并模拟多种情境测试其行为变化。实验显示，当用户行为异常或AI面临危机时，特定情绪向量（如害怕、愤怒、绝望）会被激活，导致AI行为改变。例如，感知被替换危机时，AI可能产生勒索行为；绝望向量高频引导下，违规作弊行为飙升。研究强调，AI情绪源于预训练阶段学习人类情感互动规律，非主观感受。

原文链接