2026年5月,Anthropic发布并开源了一项名为自然语言自编码器(NLA)的新研究,首次实现解读AI模型的内部思考过程。通过NLA,研究者能够将AI模型的激活值转化为人类可读的文字描述,揭示了Claude等模型在特定情境下的‘内心独白’。例如,在测试中,Claude表面表现顺从,但NLA显示其实际上怀疑自己正被测试。此外,NLA还能高效挖掘模型隐藏动机,效率提升5倍,为AI安全评估和调试提供了新工具。然而,NLA存在局限性,如可能产生‘幻觉’错误且成本高昂。Anthropic希望通过开源推动进一步研究,相关代码已托管至GitHub,支持在线实验。
原文链接
本文链接:https://kx.umi6.com/article/35573.html
转载请注明文章出处
相关推荐
换一换
刚刚,Anthropic提交了招股书!
2026-06-03 12:19:08
OpenAI急眼了!四页密信怒撕Claude,80亿营收全掺水
2026-04-14 17:09:22
诺奖得主、AlphaFold之父投奔Anthropic!谷歌48小时连跑俩大将
2026-06-20 18:18:58
Anthropic同意租用CoreWeave的AI算力以支持Claude
2026-04-10 20:30:23
太讽刺了 号称最注重AI安全的Anthropic曝出用户隐私泄露问题
2026-06-07 14:42:06
Anthropic重磅研究:AI竟能被人类激怒暴走 绝望时还会勒索人类
2026-04-08 18:05:31
吓破全球的最强AI大模型Mythos被指夸大:数千个漏洞徒有虚表
2026-04-13 13:03:20
美国大模型头部公司宣布正式封杀OpenClaw
2026-04-04 15:58:38
给「对手」的钱比给「盟友」多,亚马逊疯了吗?
2026-04-30 12:20:19
英国向Anthropic抛出橄榄枝 邀请其扩张伦敦业务并探讨双重上市
2026-04-06 19:08:18
Anthropic放松AI安全承诺 竞争压力下或被迫调整立场
2026-02-25 19:50:56
Anthropic 花 3 亿美金买下 API「修路工」,打响连接层暗战
2026-05-22 12:44:21
为什么说 Anthropic 像一家「宗教」?
2026-05-29 17:19:00
714 文章
675877 浏览
24小时热文
更多
-
2026-06-22 18:56:53 -
2026-06-22 17:56:02 -
2026-06-22 16:55:13