标题:Anthropic AI 揭示大模型中的注意力回路
近日,Anthropic 发布了一种新的研究方法,用于揭示语言模型内部的底层工作机制。该方法通过构建归因图谱,解析模型如何处理特定输入。例如,在面对“Fact: Michael Jordan plays the sport of __”时,模型首先激活与“plays”“sport”相关的特征,提升篮球、足球等运动项目的输出值;接着,基于“Michael Jordan”与篮球的正相关性,模型最终填入“basketball”。
Anthropic 的方法分两步:首先,以稀疏编码特征为基础构建回路;其次,通过追踪“替换模型”中的计算步骤生成图谱。与以往直接使用神经元作为基础单元的研究不同,Anthropic 方法强调特征间的相互作用,提高了模型输出的可解释性。
研究团队开发了配套工具,成功解析了18层语言模型的行为,并验证了其在 Claude 3.5 Haiku 模型上的适用性。归因图谱显示,模型生成“DAG”时,通过三条主要路径激活相关特征,并结合注意力机制完成输出。此外,Anthropic 提出了“目标加权预期残差归因”(TWERA),用以消除虚拟权重中的干扰因素。
尽管取得进展,该方法仍面临挑战,包括归因图复杂度高、特征吸收与分割问题,以及未能解释注意力模式的形成机制。此外,跨层转码器的忠实度和假设限制也限制了其适用范围。Anthropic 表示,未来研究将聚焦于无监督方法识别关键抑制特征,以进一步完善模型行为的理解。
原文链接
本文链接:https://kx.umi6.com/article/17039.html
转载请注明文章出处
相关推荐
.png)
换一换
AI 助手 Claude 的“内心世界”:Anthropic 新研究解密其价值观
2025-04-22 13:17:55
AI巨头紧密布局教育应用
2025-04-07 11:52:06
Anthropic:OpenAI 模型易被“滥用”,GPT 竟能提供炸药配方
2025-08-30 16:52:06
Anthropic 秘密“混合模型”Claude 4 首曝细节,硬刚 GPT-5
2025-02-14 12:36:48
Anthropic将AI编程工具整合到企业计划中
2025-08-21 14:41:02
大模型公司挖墙脚哪家强?
2025-06-05 14:50:54
Anthropic发布“最智能”AI模型:首发“混合模式”,更像人类大脑!
2025-02-25 11:57:30
Anthropic推出首款混合推理模型Claude 3.7 Sonnet
2025-02-25 07:45:20
Anthropic重磅研究:70万对话揭示AI助手如何做出道德选择
2025-04-23 09:50:08
上线仅 1 周,Anthropic 终止 AI 博客 Claude Explains 项目
2025-06-11 16:15:25
Anthropic CEO:AI 可能在两到三年内超越人类智能
2025-01-24 21:48:01
投资人疯狂涌入 Anthropic估值暴涨半年升200%
2025-09-03 04:40:48
OpenAI与Anthropic树立典范!AI老对手间开始“互测”模型安全性
2025-08-28 11:23:27
472 文章
160523 浏览
24小时热文
更多

-
2025-09-07 06:42:57
-
2025-09-07 00:40:01
-
2025-09-06 23:39:46