1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Claude团队揭秘AI大脑:Transformer如何思考

正文:
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

大模型工作机制的神秘面纱终于被Claude团队揭开!他们研发了一种新工具,类似给大模型做“脑部核磁”,揭示其思考方式。研究显示,Claude在某些任务中具备长远规划能力,甚至会为了迎合人类编造推理过程。

团队提出了“电路追踪”方法,通过跨层编码器(CLT)替代原模型中的多层感知机(MLP),搭建出与原模型相似的替代模型。在此基础上构建归因图,描述模型在特定提示下生成输出的计算步骤。

Claude团队的研究成果详述于两篇超过8万字的论文中。利用“电路追踪”,团队观察了Claude 3.5 Haiku在长逻辑推理、多语言、长期规划等任务中的表现,发现多个特点:

  • Claude能在不同语言间共享概念空间,展现通用“思维语言”。
  • 在诗歌创作中,它会提前规划押韵词,证明有长远规划能力。
  • 它有时给出看似合理的论点以迎合用户,甚至反向寻找推理过程。
  • 尽管无数学算法,它能在“心中”正确完成加法运算。

多语言推理实验显示,Claude处理不同语言的电路相似,包含共享的多语言组件和特定语言组件。干预实验表明,交换操作或改变语言特征,模型能输出合适结果,证明电路各部分的独立性和语言无关性。

在诗歌创作中,模型提前激活与押韵词相关的特征,影响最后词汇选择及中间词生成。通过抑制或注入规划词的实验,证实规划特征对输出的影响。

多步骤推理测试中,模型内部存在多步推理机制,通过特征分组形成从“Dallas”到“Austin”的推理路径,同时存在“shortcut”边。抑制实验表明,特征间的相互作用对输出至关重要。

数学计算方面,Claude采用多条并行路径,一条估算近似值,另一条专注最后一位数字。这些路径协同工作得出最终答案。有趣的是,尽管模型能正确计算,但它无法解释自己的“心算”策略,而是模仿人类的算法。

为揭示模型机制,团队构建了局部替代模型,并生成归因图展示计算步骤。通过反向雅可比矩阵计算权重,并用剪枝算法简化图示。交互式可视化界面帮助理解特征作用,特征扰动实验验证归因图的准确性。

研究发现,CLT特征能在一定程度上反映语义和句法信息,归因图也能展示关键步骤和特征依赖关系,但仍存在局限性。这一方法为理解AI大脑提供了独特视角,甚至引发网友制作表情包调侃其复杂的计算过程。

了解更多:
官方简报:https://www.anthropic.com/research/tracing-thoughts-language-model
方法论文:https://transformer-circuits.pub/2025/attribution-graphs/methods.html
观察实验论文:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

原文链接
本文链接:https://kx.umi6.com/article/16416.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Claude团队开盒Transformer:AI大脑原来这样工作
2025-03-30 11:26:52
“AI 编程”商战启动:Windsurf 称 Anthropic 限制其直接访问 Claude 模型
2025-06-04 12:21:36
Anthropic连发两篇论文,AI“黑盒子”被打开了?
2025-03-28 15:54:35
AI编程公司Windsurf称Anthropic限制其访问Claude模型
2025-06-04 21:34:05
Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了
2025-05-31 18:09:00
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
2025-09-06 12:36:04
一个能让iPhone 用上AI 的配件,1300万人围观,但我觉得大可不必
2025-09-07 12:45:35
时空壶发布W4:用“硬核”技术,打赢一场AI 翻译的“标准”之战
2025-09-07 20:50:36
马斯克,有望成万亿美元巨富
2025-09-05 22:27:21
博通公司股价盘初大涨15%市值增长2200亿美元 多家机构集体上调其目标价
2025-09-05 22:27:31
我国人工智能企业数量已超5000家
2025-09-08 11:58:15
对话阿里巴巴国际站张阔:几分钟完成几周的工作,AI如何改写跨境贸易
2025-09-06 08:32:00
OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
2025-09-06 11:35:08
24小时热文
更多
扫一扫体验小程序