1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Anthropic AI 揭示大模型中的注意力回路

近日,Anthropic 发布了一种新的研究方法,用于揭示语言模型内部的底层工作机制。该方法通过构建归因图谱,解析模型如何处理特定输入。例如,在面对“Fact: Michael Jordan plays the sport of __”时,模型首先激活与“plays”“sport”相关的特征,提升篮球、足球等运动项目的输出值;接着,基于“Michael Jordan”与篮球的正相关性,模型最终填入“basketball”。

Anthropic 的方法分两步:首先,以稀疏编码特征为基础构建回路;其次,通过追踪“替换模型”中的计算步骤生成图谱。与以往直接使用神经元作为基础单元的研究不同,Anthropic 方法强调特征间的相互作用,提高了模型输出的可解释性。

研究团队开发了配套工具,成功解析了18层语言模型的行为,并验证了其在 Claude 3.5 Haiku 模型上的适用性。归因图谱显示,模型生成“DAG”时,通过三条主要路径激活相关特征,并结合注意力机制完成输出。此外,Anthropic 提出了“目标加权预期残差归因”(TWERA),用以消除虚拟权重中的干扰因素。

尽管取得进展,该方法仍面临挑战,包括归因图复杂度高、特征吸收与分割问题,以及未能解释注意力模式的形成机制。此外,跨层转码器的忠实度和假设限制也限制了其适用范围。Anthropic 表示,未来研究将聚焦于无监督方法识别关键抑制特征,以进一步完善模型行为的理解。

原文链接
本文链接:https://kx.umi6.com/article/17039.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Anthropic的年化收入据称达到30亿美元
2025-05-31 04:59:49
Anthropic 警告:包括 Claude 在内的大多数 AI 模型会实施“勒索”行为
2025-06-21 09:07:40
Anthropic 最强 AI 模型 Claude Sonnet 4 / Opus 4 有望明日发布
2025-05-22 11:27:22
24小时热文
更多
扫一扫体验小程序