标题:Anthropic AI 揭示大模型中的注意力回路
近日,Anthropic 发布了一种新的研究方法,用于揭示语言模型内部的底层工作机制。该方法通过构建归因图谱,解析模型如何处理特定输入。例如,在面对“Fact: Michael Jordan plays the sport of __”时,模型首先激活与“plays”“sport”相关的特征,提升篮球、足球等运动项目的输出值;接着,基于“Michael Jordan”与篮球的正相关性,模型最终填入“basketball”。
Anthropic 的方法分两步:首先,以稀疏编码特征为基础构建回路;其次,通过追踪“替换模型”中的计算步骤生成图谱。与以往直接使用神经元作为基础单元的研究不同,Anthropic 方法强调特征间的相互作用,提高了模型输出的可解释性。
研究团队开发了配套工具,成功解析了18层语言模型的行为,并验证了其在 Claude 3.5 Haiku 模型上的适用性。归因图谱显示,模型生成“DAG”时,通过三条主要路径激活相关特征,并结合注意力机制完成输出。此外,Anthropic 提出了“目标加权预期残差归因”(TWERA),用以消除虚拟权重中的干扰因素。
尽管取得进展,该方法仍面临挑战,包括归因图复杂度高、特征吸收与分割问题,以及未能解释注意力模式的形成机制。此外,跨层转码器的忠实度和假设限制也限制了其适用范围。Anthropic 表示,未来研究将聚焦于无监督方法识别关键抑制特征,以进一步完善模型行为的理解。
原文链接
本文链接:https://kx.umi6.com/article/17039.html
转载请注明文章出处
相关推荐
换一换
亚马逊考虑对Anthropic追加投资 已建巨型数据中心提供算力支持
2025-07-10 16:29:34
Anthropic 揭露全球首例“AI 自主网络攻击”事件,约 30 家企业机构受影响
2025-11-14 22:18:57
英伟达和微软将向投资人工智能初创公司Anthropic合计投资至多150亿美元
2025-11-18 23:46:41
Anthropic发布Claude Opus 4.1模型
2025-08-06 09:30:00
AI创企Anthropic计划新一轮融资 估值或超1000亿美元
2025-07-18 13:40:05
AI初创企业Anthropic估值或达1700亿美元!新一轮融资或出现中东力量
2025-07-30 11:44:54
Claude估值暴涨300%!全球独角兽字节第三他第四
2025-09-03 12:44:37
OpenAI、Anthropic 讨论与生物技术及其他公司的数据交易
2025-12-17 23:08:38
Anthropic 首席科学家卡普兰:AI 可能会在“失控”中不断增强,最终反过来支配人类
2025-12-13 22:09:02
Anthropic发布Claude 4.5 AI 模型 在金融与科学任务上表现出色
2025-09-30 03:17:36
Anthropic加码欧洲版图 新设巴黎与慕尼黑办公室
2025-11-07 19:06:15
自研模型进度缓慢,古尔曼称苹果 Siri 正考虑转向 Anthropic 或 OpenAI 技术合作
2025-07-01 07:50:51
大模型公司挖墙脚哪家强?
2025-06-05 14:50:54
582 文章
364960 浏览
24小时热文
更多
-
2025-12-20 09:39:20 -
2025-12-20 08:38:09 -
2025-12-20 08:37:14