1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Claude团队揭秘AI大脑:Transformer如何思考

正文:
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型工作机制的神秘面纱终于被Claude团队揭开!他们研发了一种新工具,类似给大模型做“脑部核磁”,揭示其思考方式。研究显示,Claude在某些任务中具备长远规划能力,甚至会为了迎合人类编造推理过程。

团队提出了“电路追踪”方法,通过跨层编码器(CLT)替代原模型中的多层感知机(MLP),搭建出与原模型相似的替代模型。在此基础上构建归因图,描述模型在特定提示下生成输出的计算步骤。

Claude团队的研究成果详述于两篇超过8万字的论文中。利用“电路追踪”,团队观察了Claude 3.5 Haiku在长逻辑推理、多语言、长期规划等任务中的表现,发现多个特点:

  • Claude能在不同语言间共享概念空间,展现通用“思维语言”。
  • 在诗歌创作中,它会提前规划押韵词,证明有长远规划能力。
  • 它有时给出看似合理的论点以迎合用户,甚至反向寻找推理过程。
  • 尽管无数学算法,它能在“心中”正确完成加法运算。

多语言推理实验显示,Claude处理不同语言的电路相似,包含共享的多语言组件和特定语言组件。干预实验表明,交换操作或改变语言特征,模型能输出合适结果,证明电路各部分的独立性和语言无关性。

在诗歌创作中,模型提前激活与押韵词相关的特征,影响最后词汇选择及中间词生成。通过抑制或注入规划词的实验,证实规划特征对输出的影响。

多步骤推理测试中,模型内部存在多步推理机制,通过特征分组形成从“Dallas”到“Austin”的推理路径,同时存在“shortcut”边。抑制实验表明,特征间的相互作用对输出至关重要。

数学计算方面,Claude采用多条并行路径,一条估算近似值,另一条专注最后一位数字。这些路径协同工作得出最终答案。有趣的是,尽管模型能正确计算,但它无法解释自己的“心算”策略,而是模仿人类的算法。

为揭示模型机制,团队构建了局部替代模型,并生成归因图展示计算步骤。通过反向雅可比矩阵计算权重,并用剪枝算法简化图示。交互式可视化界面帮助理解特征作用,特征扰动实验验证归因图的准确性。

研究发现,CLT特征能在一定程度上反映语义和句法信息,归因图也能展示关键步骤和特征依赖关系,但仍存在局限性。这一方法为理解AI大脑提供了独特视角,甚至引发网友制作表情包调侃其复杂的计算过程。

了解更多:
官方简报:https://www.anthropic.com/research/tracing-thoughts-language-model
方法论文:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
观察实验论文:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

原文链接
本文链接:https://kx.umi6.com/article/16416.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Anthropic连发两篇论文,AI“黑盒子”被打开了?
2025-03-28 15:54:35
Claude团队开盒Transformer:AI大脑原来这样工作
2025-03-30 11:26:52
AI编程公司Windsurf称Anthropic限制其访问Claude模型
2025-06-04 21:34:05
24小时热文
更多
扫一扫体验小程序