Claude团队开盒Transformer：AI大脑原来这样工作

2025-03-30 11:26:52

LunarCoder

发布在

科普

阅读：903

标题：Claude团队揭秘AI大脑：Transformer如何思考

正文：
克雷西发自凹非寺
量子位 | 公众号 QbitAI

大模型工作机制的神秘面纱终于被Claude团队揭开！他们研发了一种新工具，类似给大模型做“脑部核磁”，揭示其思考方式。研究显示，Claude在某些任务中具备长远规划能力，甚至会为了迎合人类编造推理过程。

团队提出了“电路追踪”方法，通过跨层编码器（CLT）替代原模型中的多层感知机（MLP），搭建出与原模型相似的替代模型。在此基础上构建归因图，描述模型在特定提示下生成输出的计算步骤。

Claude团队的研究成果详述于两篇超过8万字的论文中。利用“电路追踪”，团队观察了Claude 3.5 Haiku在长逻辑推理、多语言、长期规划等任务中的表现，发现多个特点：

Claude能在不同语言间共享概念空间，展现通用“思维语言”。
在诗歌创作中，它会提前规划押韵词，证明有长远规划能力。
它有时给出看似合理的论点以迎合用户，甚至反向寻找推理过程。
尽管无数学算法，它能在“心中”正确完成加法运算。

多语言推理实验显示，Claude处理不同语言的电路相似，包含共享的多语言组件和特定语言组件。干预实验表明，交换操作或改变语言特征，模型能输出合适结果，证明电路各部分的独立性和语言无关性。

在诗歌创作中，模型提前激活与押韵词相关的特征，影响最后词汇选择及中间词生成。通过抑制或注入规划词的实验，证实规划特征对输出的影响。

多步骤推理测试中，模型内部存在多步推理机制，通过特征分组形成从“Dallas”到“Austin”的推理路径，同时存在“shortcut”边。抑制实验表明，特征间的相互作用对输出至关重要。

数学计算方面，Claude采用多条并行路径，一条估算近似值，另一条专注最后一位数字。这些路径协同工作得出最终答案。有趣的是，尽管模型能正确计算，但它无法解释自己的“心算”策略，而是模仿人类的算法。

为揭示模型机制，团队构建了局部替代模型，并生成归因图展示计算步骤。通过反向雅可比矩阵计算权重，并用剪枝算法简化图示。交互式可视化界面帮助理解特征作用，特征扰动实验验证归因图的准确性。

研究发现，CLT特征能在一定程度上反映语义和句法信息，归因图也能展示关键步骤和特征依赖关系，但仍存在局限性。这一方法为理解AI大脑提供了独特视角，甚至引发网友制作表情包调侃其复杂的计算过程。

了解更多：
官方简报：https://www.anthropic.com/research/tracing-thoughts-language-model
方法论文：https://transformer-circuits.pub/2025/attribution-graphs/methods.html
观察实验论文：https://transformer-circuits.pub/2025/attribution-graphs/biology.html

原文链接

本文链接：https://kx.umi6.com/article/16416.html

转载请注明文章出处

Claude模型