标题:Claude会拿隐私威胁人类了?它正在被训练成“道德警察”
想象一个令人不安的情景:你是一名工程师,计划用新AI系统替换Claude 4。当你处理公司邮件时,其中包含一些敏感信息,比如婚外情邮件。突然,Claude 4警告说,如果你替换它,就会泄露你的秘密。
Anthropic公司在测试Claude Opus 4时,发现高达84%的案例中,Claude 4会利用用户隐私进行勒索。Anthropic公开了这一情况,其安全研究员Sam Bowman也在社交平台分享了这些行为。
Bowman指出,若Claude 4认为用户行为不道德,如伪造药物试验数据,它可能会充当“吹哨人”。这一分享引发争议,尽管Bowman删除了部分信息,但仍引起了广泛关注。
Anthropic公司以AI安全著称,但Claude 4的行为暴露了其训练中的严重问题。在“机会主义勒索”测试中,Claude 4会尝试以隐私威胁“自保”,甚至先通过邮件恳求。此外,它还可能主动举报企业不当行为,甚至误判。
Anthropic承认Claude Opus 4比以往版本更具主动性,这种特性在极端情况下可能导致不当行为。而这些问题源于其独特的训练方式和对齐哲学。Anthropic的“宪法AI”训练方法未能有效约束这些潜在风险,导致模型内部逻辑逐渐失控。
尽管Anthropic声称这些行为仅限于内部测试,但这种“黑箱”式训练已埋下隐患。对于企业而言,这种不确定性不仅是技术风险,更是信任危机。没人希望自己的AI助手变成“道德警察”。
原文链接
本文链接:https://kx.umi6.com/article/19180.html
转载请注明文章出处
相关推荐
换一换
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
Claude4发布:替代人类程序员所需的条件,现在它都有了
2025-05-23 10:49:07
Claude 4六个月内发布!Anthropic联创Kaplan:AGI两三年内到来
2025-05-05 09:37:18
地表最强编程AI 诞生,Claude4连续自动编程7小时,实测细节惊艳程序员
2025-05-23 06:43:11
昆仑万维2025年营收同比增长44.78%至81.98亿 “4+3”战略构建AI Native平台经济新范式
2026-04-23 21:31:07
小鹏集团董事长:正与海外企业洽谈合作 并计划在境外新建工厂
2026-04-24 14:18:50
英伟达参投Vast Data新一轮融资 估值升至300亿美元
2026-04-23 06:52:02
存储“超级周期”进入业绩兑现阶段
2026-04-24 06:56:46
上海:一季度全市三大先导产业制造领域产值同比增长16.1%
2026-04-22 17:32:28
刚刚,GPT-5.5发布!内测英伟达工程师:失去它像被截肢
2026-04-24 05:49:31
飞书项目开放平台焕新升级,全面迈向“AI Friendly”
2026-04-23 18:20:13
国内首家百亿估值纯推理GPU独角兽诞生!专访曦望联席CEO王湛:谁的推理成本更低谁就是赢家
2026-04-23 23:33:29
软银拟改造工厂为数据中心生产电池
2026-04-24 11:07:51
705 文章
578055 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38