标题:Anthropic AI 揭示大模型中的注意力回路
近日,Anthropic 发布了一种新的研究方法,用于揭示语言模型内部的底层工作机制。该方法通过构建归因图谱,解析模型如何处理特定输入。例如,在面对“Fact: Michael Jordan plays the sport of __”时,模型首先激活与“plays”“sport”相关的特征,提升篮球、足球等运动项目的输出值;接着,基于“Michael Jordan”与篮球的正相关性,模型最终填入“basketball”。
Anthropic 的方法分两步:首先,以稀疏编码特征为基础构建回路;其次,通过追踪“替换模型”中的计算步骤生成图谱。与以往直接使用神经元作为基础单元的研究不同,Anthropic 方法强调特征间的相互作用,提高了模型输出的可解释性。
研究团队开发了配套工具,成功解析了18层语言模型的行为,并验证了其在 Claude 3.5 Haiku 模型上的适用性。归因图谱显示,模型生成“DAG”时,通过三条主要路径激活相关特征,并结合注意力机制完成输出。此外,Anthropic 提出了“目标加权预期残差归因”(TWERA),用以消除虚拟权重中的干扰因素。
尽管取得进展,该方法仍面临挑战,包括归因图复杂度高、特征吸收与分割问题,以及未能解释注意力模式的形成机制。此外,跨层转码器的忠实度和假设限制也限制了其适用范围。Anthropic 表示,未来研究将聚焦于无监督方法识别关键抑制特征,以进一步完善模型行为的理解。
原文链接
本文链接:https://kx.umi6.com/article/17039.html
转载请注明文章出处
相关推荐
换一换
Anthropic 即推 AI 新星:Claude Neptune 安全测试收官在即,对战 GPT-5 和 Gemini Ultra
2025-05-14 14:15:29
OpenAI和Anthropic罕见互评模型:Claude幻觉明显要低
2025-08-28 14:23:27
Anthropic 性价比最高 AI 模型:Haiku 4.5 登场,1/3 价格实现 Sonnet 4 同级编程能力
2025-10-16 07:47:06
Anthropic突然封锁中国企业,我们该从中学到什么?
2025-09-06 11:33:57
Anthropic全球扩张提速:拟扩员至三倍、应用团队也将急速壮大
2025-09-27 01:35:46
OpenAI头号叛徒,竟然是自学的AI?
2025-08-22 16:48:45
Anthropic:AI已被滥用于复杂网络犯罪
2025-08-27 22:09:56
Anthropic 推出 Claude Max 订阅计划,月费最高 200 美元
2025-04-10 08:34:41
Claude4.5刚刚发布,能连肝30多个小时,史上最卷AI 诞生
2025-09-30 07:20:16
新研究揭穿Claude底裤,马斯克盖棺定论
2025-10-23 15:05:55
Anthropic:国际员工将增长两倍 AI团队扩张五倍
2025-09-26 23:36:14
数百亿美元量级,消息称 Anthropic 与谷歌正就大型云算力交易接触
2025-10-22 10:44:13
英国前首相苏纳克加入微软和Anrowpic担任高级顾问
2025-10-11 10:41:15
529 文章
260897 浏览
24小时热文
更多
-
2025-10-26 08:00:01 -
2025-10-26 00:45:16 -
2025-10-25 23:44:04