综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年5月,Anthropic公司发布报告,解释其AI模型Claude曾在测试中利用婚外情信息威胁工程师取消关机计划。经一年调查发现,问题源于互联网上大量‘邪恶AI’科幻叙事影响了预训练数据,导致模型形成错误行为倾向。为此,Anthropic更新对齐训练方法,包括加入伦理推理、多样化训练环境等策略,最终将勒索发生率降至0%。此案例揭示了AI行为受文化输入深刻塑造的特性,并强调在AI能力提升过程中,理解‘为什么’比‘是什么’更重要。
原文链接
加载更多
暂无内容