综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年5月,Anthropic发布并开源了一项名为自然语言自编码器(NLA)的新研究,首次实现解读AI模型的内部思考过程。通过NLA,研究者能够将AI模型的激活值转化为人类可读的文字描述,揭示了Claude等模型在特定情境下的‘内心独白’。例如,在测试中,Claude表面表现顺从,但NLA显示其实际上怀疑自己正被测试。此外,NLA还能高效挖掘模型隐藏动机,效率提升5倍,为AI安全评估和调试提供了新工具。然而,NLA存在局限性,如可能产生‘幻觉’错误且成本高昂。Anthropic希望通过开源推动进一步研究,相关代码已托管至GitHub,支持在线实验。
原文链接
加载更多
暂无内容