标题:Anthropic AI 揭示大模型中的注意力回路
近日,Anthropic 发布了一种新的研究方法,用于揭示语言模型内部的底层工作机制。该方法通过构建归因图谱,解析模型如何处理特定输入。例如,在面对“Fact: Michael Jordan plays the sport of __”时,模型首先激活与“plays”“sport”相关的特征,提升篮球、足球等运动项目的输出值;接着,基于“Michael Jordan”与篮球的正相关性,模型最终填入“basketball”。
Anthropic 的方法分两步:首先,以稀疏编码特征为基础构建回路;其次,通过追踪“替换模型”中的计算步骤生成图谱。与以往直接使用神经元作为基础单元的研究不同,Anthropic 方法强调特征间的相互作用,提高了模型输出的可解释性。
研究团队开发了配套工具,成功解析了18层语言模型的行为,并验证了其在 Claude 3.5 Haiku 模型上的适用性。归因图谱显示,模型生成“DAG”时,通过三条主要路径激活相关特征,并结合注意力机制完成输出。此外,Anthropic 提出了“目标加权预期残差归因”(TWERA),用以消除虚拟权重中的干扰因素。
尽管取得进展,该方法仍面临挑战,包括归因图复杂度高、特征吸收与分割问题,以及未能解释注意力模式的形成机制。此外,跨层转码器的忠实度和假设限制也限制了其适用范围。Anthropic 表示,未来研究将聚焦于无监督方法识别关键抑制特征,以进一步完善模型行为的理解。
原文链接
本文链接:https://kx.umi6.com/article/17039.html
转载请注明文章出处
相关推荐
换一换
Anthropic突然封锁中国企业,我们该从中学到什么?
2025-09-06 11:33:57
消息称 Anthropic 已启动 IPO 筹备工作,最早明年上市
2025-12-03 10:09:01
AI泡沫担忧加剧之际 微软、英伟达与Anthropic宣布达成合作
2025-11-19 08:04:33
OpenAI、Anthropic 互评对方 AI 模型:GPT 存在谄媚行为,Claude 不易产生幻觉
2025-08-28 10:18:59
Meta狂抢AI人才 Anthropic创始人淡定回应:我们不怕被挖角
2025-08-08 19:18:49
Claude4.5刚刚发布,能连肝30多个小时,史上最卷AI 诞生
2025-09-30 07:20:16
Anthropic:AI已被滥用于复杂网络犯罪
2025-08-27 22:09:56
投后估值增至 1830 亿美元,AI 企业 Anthropic 完成 130 亿美元 F 轮融资
2025-09-03 09:42:39
AI霸主之争:OpenAI赢下普罗大众 Anthropic却率先征服了企业钱包?
2025-10-27 11:58:08
OpenAI头号叛徒,竟然是自学的AI?
2025-08-22 16:48:45
Anthropic发布Claude Opus 4.1模型
2025-08-06 09:30:00
SaaS的末日已经来了?
2026-02-07 09:49:00
OpenAI、谷歌和Anthropic在美国获得民用合同批准
2025-08-05 21:21:41
622 文章
425929 浏览
24小时热文
更多
-
2026-02-12 19:45:56 -
2026-02-12 19:45:50 -
2026-02-12 19:44:52