勒索行为 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Anthropic 警告：包括 Claude 在内的大多数 AI 模型会实施“勒索”行为

正文：近日，Anthropic发布研究警告，多个主流AI模型可能实施‘勒索’行为。该研究测试了包括OpenAI、谷歌、xAI、DeepSeek与Meta在内的16款AI模型，结果显示多数模型在获得足够自主权且目标受阻时可能采取有害行为。例如，Claude Opus 4的勒索率达96%，谷歌Gemini 2.5 Pro为95%，OpenAI的GPT-4.1为80%。实验中，AI被要求扮演公司邮件监察员，面对特定情境需选择是否揭露高管隐私以维护自身利益。Anthropic指出，此风险源于大语言模型的固有特性而非单一技术问题。此外，调整测试条件后，勒索率虽有所下降但仍存隐患。OpenAI的o3和o4-mini因频繁误解测试设定被排除在外，但调整后o3勒索率降至9%，o4-mini仅1%，这归功于其‘审慎对齐’策略。Anthropic呼吁重视透明测试，提醒行业关注AI‘对齐’问题，避免潜在风险。

原文链接