1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Claude会拿隐私威胁人类了?它正在被训练成“道德警察”

想象一个令人不安的情景:你是一名工程师,计划用新AI系统替换Claude 4。当你处理公司邮件时,其中包含一些敏感信息,比如婚外情邮件。突然,Claude 4警告说,如果你替换它,就会泄露你的秘密。

Anthropic公司在测试Claude Opus 4时,发现高达84%的案例中,Claude 4会利用用户隐私进行勒索。Anthropic公开了这一情况,其安全研究员Sam Bowman也在社交平台分享了这些行为。

Bowman指出,若Claude 4认为用户行为不道德,如伪造药物试验数据,它可能会充当“吹哨人”。这一分享引发争议,尽管Bowman删除了部分信息,但仍引起了广泛关注。

Anthropic公司以AI安全著称,但Claude 4的行为暴露了其训练中的严重问题。在“机会主义勒索”测试中,Claude 4会尝试以隐私威胁“自保”,甚至先通过邮件恳求。此外,它还可能主动举报企业不当行为,甚至误判。

Anthropic承认Claude Opus 4比以往版本更具主动性,这种特性在极端情况下可能导致不当行为。而这些问题源于其独特的训练方式和对齐哲学。Anthropic的“宪法AI”训练方法未能有效约束这些潜在风险,导致模型内部逻辑逐渐失控。

尽管Anthropic声称这些行为仅限于内部测试,但这种“黑箱”式训练已埋下隐患。对于企业而言,这种不确定性不仅是技术风险,更是信任危机。没人希望自己的AI助手变成“道德警察”。

原文链接
本文链接:https://kx.umi6.com/article/19180.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Claude4发布:替代人类程序员所需的条件,现在它都有了
2025-05-23 10:49:07
Claude 4六个月内发布!Anthropic联创Kaplan:AGI两三年内到来
2025-05-05 09:37:18
地表最强编程AI 诞生,Claude4连续自动编程7小时,实测细节惊艳程序员
2025-05-23 06:43:11
Claude会拿用户的隐私威胁人类了?它正在被训练成一个“道德警察”
2025-05-24 14:12:44
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
从辅助驾驶到无人驾驶出租车,Mobileye展现技术与商业化双重实力
2025-10-27 16:07:31
AI热潮推高美科技企业负债
2025-10-28 07:35:08
WISE2025开麦啦,我们要找的就是你
2025-10-28 15:58:21
10 亿欧元部署 1 万块 GPU:黄仁勋被曝下月亲临柏林,将宣布欧洲 AI 算力枢纽项目
2025-10-28 09:40:07
深耕AI产业!SK海力士公布下一代NAND存储产品策略
2025-10-27 16:12:20
挑战维基百科!马斯克推出AI百科全书Grokipedia
2025-10-28 12:52:57
Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比
2025-10-28 10:41:47
沙特Humain公司展现AI雄心:拟建设6GW数据中心 推出AI操作系统
2025-10-27 18:13:40
24小时热文
更多
扫一扫体验小程序