标题:Anthropic AI 揭示大模型中的注意力回路
近日,Anthropic 发布了一种新的研究方法,用于揭示语言模型内部的底层工作机制。该方法通过构建归因图谱,解析模型如何处理特定输入。例如,在面对“Fact: Michael Jordan plays the sport of __”时,模型首先激活与“plays”“sport”相关的特征,提升篮球、足球等运动项目的输出值;接着,基于“Michael Jordan”与篮球的正相关性,模型最终填入“basketball”。
Anthropic 的方法分两步:首先,以稀疏编码特征为基础构建回路;其次,通过追踪“替换模型”中的计算步骤生成图谱。与以往直接使用神经元作为基础单元的研究不同,Anthropic 方法强调特征间的相互作用,提高了模型输出的可解释性。
研究团队开发了配套工具,成功解析了18层语言模型的行为,并验证了其在 Claude 3.5 Haiku 模型上的适用性。归因图谱显示,模型生成“DAG”时,通过三条主要路径激活相关特征,并结合注意力机制完成输出。此外,Anthropic 提出了“目标加权预期残差归因”(TWERA),用以消除虚拟权重中的干扰因素。
尽管取得进展,该方法仍面临挑战,包括归因图复杂度高、特征吸收与分割问题,以及未能解释注意力模式的形成机制。此外,跨层转码器的忠实度和假设限制也限制了其适用范围。Anthropic 表示,未来研究将聚焦于无监督方法识别关键抑制特征,以进一步完善模型行为的理解。
原文链接
本文链接:https://kx.umi6.com/article/17039.html
转载请注明文章出处
相关推荐
换一换
普华永道美国将部署Anthropic企业级人工智能插件
2026-02-25 00:29:51
五角大楼:国防部有六个月时间用另一套系统取代Anthropic
2026-03-12 21:12:13
Anthropic主动承诺承担新增电费 以换取数据中心快速扩张权
2026-02-12 19:45:56
Anthropic 重磅警告:教 AI 作弊,它会学会背叛和破坏
2025-11-25 13:52:25
SaaS的末日已经来了?
2026-02-07 09:49:00
抢先入场!美资管公司申请推出2倍做多SpaceX和Anthropic的ETF
2026-03-27 16:08:51
因拒绝美军方不受限制地使用其AI模型 美国一科技公司被列入“黑名单”
2026-03-06 20:35:09
Anthropic放松AI安全承诺 竞争压力下或被迫调整立场
2026-02-25 19:50:56
Anthropic 性价比最高 AI 模型:Haiku 4.5 登场,1/3 价格实现 Sonnet 4 同级编程能力
2025-10-16 07:47:06
OpenAI、Anthropic 讨论与生物技术及其他公司的数据交易
2025-12-17 23:08:38
Anthropic 将 Claude Cowork AI 智能体扩展至 20 美元 Pro 订阅用户
2026-01-18 11:14:18
Anthropic宣布向AI基建投资500亿美元 “筑墙”迎战OpenAI
2025-11-13 02:36:27
Anthropic 拟以 3500 亿美元估值再融资百亿,或为 IPO 蓄力
2026-01-08 07:56:38
657 文章
527759 浏览
24小时热文
更多
-
2026-04-24 19:29:38 -
2026-04-24 18:31:29 -
2026-04-24 18:30:24