稀疏子图 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI解数学题只靠最后一个token

2025年9月，加州大学圣克鲁兹分校、乔治·梅森大学和Datadog的研究团队发现，大语言模型在心算任务中几乎所有的数学计算集中在序列的最后一个token上完成。研究通过上下文感知平均消融（CAMA）和基于注意力的窥视（ABP）技术对Llama-3-8B等模型进行实验，揭示了‘人人为我’（AF1）稀疏子图的存在。该机制显示，模型将通用计算与特定计算分离，前几层仅做准备工作，中间层传递信息，最后由末尾token完成运算。实验表明，AF1子图大幅减少计算量但仍保持高准确率，尤其在简单算术任务中表现突出，但在语义理解任务中失效。研究为理解语言模型的内部计算机制提供了新视角，并提出方法论创新，或可推广至更广泛领域。

原文链接