Anthropic AI 最新研究成果发布：揭示大模型中的注意力回路

2025-04-11 17:00:47

Journeyman

发布在

科普

阅读：622

标题：Anthropic AI 揭示大模型中的注意力回路

近日，Anthropic 发布了一种新的研究方法，用于揭示语言模型内部的底层工作机制。该方法通过构建归因图谱，解析模型如何处理特定输入。例如，在面对“Fact: Michael Jordan plays the sport of __”时，模型首先激活与“plays”“sport”相关的特征，提升篮球、足球等运动项目的输出值；接着，基于“Michael Jordan”与篮球的正相关性，模型最终填入“basketball”。

Anthropic 的方法分两步：首先，以稀疏编码特征为基础构建回路；其次，通过追踪“替换模型”中的计算步骤生成图谱。与以往直接使用神经元作为基础单元的研究不同，Anthropic 方法强调特征间的相互作用，提高了模型输出的可解释性。

研究团队开发了配套工具，成功解析了18层语言模型的行为，并验证了其在 Claude 3.5 Haiku 模型上的适用性。归因图谱显示，模型生成“DAG”时，通过三条主要路径激活相关特征，并结合注意力机制完成输出。此外，Anthropic 提出了“目标加权预期残差归因”（TWERA），用以消除虚拟权重中的干扰因素。

尽管取得进展，该方法仍面临挑战，包括归因图复杂度高、特征吸收与分割问题，以及未能解释注意力模式的形成机制。此外，跨层转码器的忠实度和假设限制也限制了其适用范围。Anthropic 表示，未来研究将聚焦于无监督方法识别关键抑制特征，以进一步完善模型行为的理解。

原文链接

本文链接：https://kx.umi6.com/article/17039.html

转载请注明文章出处

Anthropic