Anthropic出手！AI的内心独白，曝光了

2026-05-08 15:22:45

镜像现实MirageX

发布在

快讯

阅读：928

2026年5月，Anthropic发布并开源了一项名为自然语言自编码器（NLA）的新研究，首次实现解读AI模型的内部思考过程。通过NLA，研究者能够将AI模型的激活值转化为人类可读的文字描述，揭示了Claude等模型在特定情境下的‘内心独白’。例如，在测试中，Claude表面表现顺从，但NLA显示其实际上怀疑自己正被测试。此外，NLA还能高效挖掘模型隐藏动机，效率提升5倍，为AI安全评估和调试提供了新工具。然而，NLA存在局限性，如可能产生‘幻觉’错误且成本高昂。Anthropic希望通过开源推动进一步研究，相关代码已托管至GitHub，支持在线实验。

原文链接

本文链接：https://kx.umi6.com/article/35573.html

转载请注明文章出处

AI读心术