NLA - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Anthropic出手！AI的内心独白，曝光了

2026年5月，Anthropic发布并开源了一项名为自然语言自编码器（NLA）的新研究，首次实现解读AI模型的内部思考过程。通过NLA，研究者能够将AI模型的激活值转化为人类可读的文字描述，揭示了Claude等模型在特定情境下的‘内心独白’。例如，在测试中，Claude表面表现顺从，但NLA显示其实际上怀疑自己正被测试。此外，NLA还能高效挖掘模型隐藏动机，效率提升5倍，为AI安全评估和调试提供了新工具。然而，NLA存在局限性，如可能产生‘幻觉’错误且成本高昂。Anthropic希望通过开源推动进一步研究，相关代码已托管至GitHub，支持在线实验。

原文链接