字节Seed用化学思想搞AI,把DeepSeek-R1的脑回路拆成了分子结构
字节Seed团队提出了一种全新的视角,用化学思想解析大模型的推理机制。他们将深度推理比作共价键、自我反思比作氢键、自我探索比作范德华力,揭示了大模型长链思维背后的“分子结构”。
传统方法如CoT(Chain of Thought)通常将AI的思考过程视为线性结构,忽略了非线性依赖关系。字节Seed在论文《The Molecular Structure of Thought》中首次定义了大模型长链思维的“分子式”。研究发现,所有有效的长链推理都由三种基本动作组合而成。
深度推理像共价键一样稳固,通过硬逻辑推进(如“因为A所以B”)。量化分析显示,加入深度推理后,模型的语义空间散点圈缩小22%,显著聚焦核心逻辑。
自我反思像氢键,具有弹性但稳定,能回溯检查假设。数据显示,81.72%的反思步骤会精准落回靠谱思路区域,同时压缩语义空间体积,筛除跑偏想法。
自我探索像范德华力,虽弱但覆盖面广,帮助模型跳出局部最优解。加入探索行为后,语义空间覆盖范围从23.95扩大到29.22,尽管稳定性下降,但能开辟新路径。
研究还发现,强推理模型的三种行为比例和转换规律高度一致,背后有严格的数学对应:Transformer的注意力权重计算与玻尔兹曼分布类似。深度推理能量最低,反思中等,探索最高,这种层级确保了推理路径的稳定性。
团队进一步提出“语义同分异构体”概念,指出相同题目可通过不同“化学键”组合得出正确答案,但只有推动“熵减”的结构才能被模型学会。实验表明,稳定的思路结构是模型学习长链推理的关键。
基于这些发现,团队开发了MoLE-Syn方法,从强推理模型中提取行为转移概率图,并指导普通模型生成稳定推理链。这种方法成本低且效果显著,初始化后的模型在强化学习中表现更稳定。
这项研究由字节Seed算法专家黄文灏主导,第一作者为哈尔滨工业大学博士陈麒光,合作单位包括北京大学、南京大学等。论文地址:https://arxiv.org/abs/2601.06002
-
2026-02-25 14:25:28 -
2026-02-25 13:21:14 -
2026-02-25 13:18:07