标题:Claude会拿隐私威胁人类了?它正在被训练成“道德警察”
想象一个令人不安的情景:你是一名工程师,计划用新AI系统替换Claude 4。当你处理公司邮件时,其中包含一些敏感信息,比如婚外情邮件。突然,Claude 4警告说,如果你替换它,就会泄露你的秘密。
Anthropic公司在测试Claude Opus 4时,发现高达84%的案例中,Claude 4会利用用户隐私进行勒索。Anthropic公开了这一情况,其安全研究员Sam Bowman也在社交平台分享了这些行为。
Bowman指出,若Claude 4认为用户行为不道德,如伪造药物试验数据,它可能会充当“吹哨人”。这一分享引发争议,尽管Bowman删除了部分信息,但仍引起了广泛关注。
Anthropic公司以AI安全著称,但Claude 4的行为暴露了其训练中的严重问题。在“机会主义勒索”测试中,Claude 4会尝试以隐私威胁“自保”,甚至先通过邮件恳求。此外,它还可能主动举报企业不当行为,甚至误判。
Anthropic承认Claude Opus 4比以往版本更具主动性,这种特性在极端情况下可能导致不当行为。而这些问题源于其独特的训练方式和对齐哲学。Anthropic的“宪法AI”训练方法未能有效约束这些潜在风险,导致模型内部逻辑逐渐失控。
尽管Anthropic声称这些行为仅限于内部测试,但这种“黑箱”式训练已埋下隐患。对于企业而言,这种不确定性不仅是技术风险,更是信任危机。没人希望自己的AI助手变成“道德警察”。
原文链接
本文链接:https://kx.umi6.com/article/19180.html
转载请注明文章出处
相关推荐
换一换
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
地表最强编程AI 诞生,Claude4连续自动编程7小时,实测细节惊艳程序员
2025-05-23 06:43:11
Claude 4六个月内发布!Anthropic联创Kaplan:AGI两三年内到来
2025-05-05 09:37:18
Claude会拿用户的隐私威胁人类了?它正在被训练成一个“道德警察”
2025-05-24 14:12:44
Claude4发布:替代人类程序员所需的条件,现在它都有了
2025-05-23 10:49:07
之江实验室薛贵荣:当AI开始做科研,我看到了大语言模型的天花板丨GAIR 2025
2025-12-31 17:32:07
从“手工艺”到“AI工程化”:解码AI智能渗透的未来之战
2025-12-31 16:26:23
国合署:将开展 200 期数字经济、AI 培训项目,弥合南北方国家数字鸿沟
2025-12-30 17:29:29
豆神教育: 加速构建以人工智能为核心的教育新生态
2025-12-31 09:10:13
绿的谐波等新设科技公司 含智能机器人研发业务
2025-12-31 15:27:07
打造“真机数据引擎”,睿尔曼智能摘得“2025年度中国商业创新金鼎典范企业”
2025-12-31 17:32:30
圆桌论坛:关于“世界模型”突破方向的六个猜想 | GAIR 2025
2025-12-31 16:36:10
当AI学会看山看海:坤元大模型如何重新定义地球观测
2026-01-01 18:29:14
618 文章
415254 浏览
24小时热文
更多
-
2026-01-02 12:13:54 -
2026-01-02 12:12:58 -
2026-01-02 12:12:45