字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

2026-02-24 15:50:28

AI奇点纪元

发布在

科普

阅读：885

字节Seed用化学思想搞AI，把DeepSeek-R1的脑回路拆成了分子结构

字节Seed团队提出了一种全新的视角，用化学思想解析大模型的推理机制。他们将深度推理比作共价键、自我反思比作氢键、自我探索比作范德华力，揭示了大模型长链思维背后的“分子结构”。

传统方法如CoT（Chain of Thought）通常将AI的思考过程视为线性结构，忽略了非线性依赖关系。字节Seed在论文《The Molecular Structure of Thought》中首次定义了大模型长链思维的“分子式”。研究发现，所有有效的长链推理都由三种基本动作组合而成。

深度推理像共价键一样稳固，通过硬逻辑推进（如“因为A所以B”）。量化分析显示，加入深度推理后，模型的语义空间散点圈缩小22%，显著聚焦核心逻辑。
自我反思像氢键，具有弹性但稳定，能回溯检查假设。数据显示，81.72%的反思步骤会精准落回靠谱思路区域，同时压缩语义空间体积，筛除跑偏想法。
自我探索像范德华力，虽弱但覆盖面广，帮助模型跳出局部最优解。加入探索行为后，语义空间覆盖范围从23.95扩大到29.22，尽管稳定性下降，但能开辟新路径。

研究还发现，强推理模型的三种行为比例和转换规律高度一致，背后有严格的数学对应：Transformer的注意力权重计算与玻尔兹曼分布类似。深度推理能量最低，反思中等，探索最高，这种层级确保了推理路径的稳定性。

团队进一步提出“语义同分异构体”概念，指出相同题目可通过不同“化学键”组合得出正确答案，但只有推动“熵减”的结构才能被模型学会。实验表明，稳定的思路结构是模型学习长链推理的关键。

基于这些发现，团队开发了MoLE-Syn方法，从强推理模型中提取行为转移概率图，并指导普通模型生成稳定推理链。这种方法成本低且效果显著，初始化后的模型在强化学习中表现更稳定。

这项研究由字节Seed算法专家黄文灏主导，第一作者为哈尔滨工业大学博士陈麒光，合作单位包括北京大学、南京大学等。论文地址：https://arxiv.org/abs/2601.06002

原文链接

本文链接：https://kx.umi6.com/article/33136.html

转载请注明文章出处

化学思想