标题:大模型架构的下半场
华中科技大学王兴刚团队投稿
量子位 | 公众号 QbitAI
过去十年,深度学习领域的进展几乎都围绕一个主题:把模型做大。更多参数、更多数据、更长上下文——这些方法确实有效,推动了能力的提升和loss的下降。然而,扩展的方向不同,带来的挑战也各异。序列长度的扩展催生了注意力机制和位置编码的创新;数据扩展直截了当,更多数据意味着更低的loss;但模型的宽度和深度扩展却并不对等。
宽度扩展得益于现代GPU对矩阵运算的优化,而深度扩展则面临瓶颈。尽管模型层数从32层增加到100层以上,但层间通信机制几乎没有变化,依然依赖于2015年ResNet提出的深度残差连接(x + F(x))。这种机制虽然重要,但也带来了“信息稀释”问题:随着层数增加,原始信号被层层叠加的内容淹没,导致许多层选择“沉默”,不再贡献新信息。
这一问题的核心在于层间通信能力不足。类似CPU的内存带宽限制或组织管理中的沟通障碍,深度学习也需要更好的信息流动方式。现有改进方案如DenseNet、Hyper-Connections等,试图通过混合各层输出解决问题,但它们依然基于累加框架,而非检索框架。累加框架的问题在于,它只根据当前层状态生成权重,而不查看信息来源的实际内容。
研究团队提出了一种新思路:将层间通信视为检索而非累加。通过在深度维度引入注意力机制,模型可以直接从特定层检索所需信息,而非被动接收所有层的混合结果。谷歌、华为等团队的独立研究也验证了这一方向的潜力。然而,工程实现面临挑战:跨深度的小规模注意力操作效率低下。为此,研究团队开发了Flash Depth Attention(FDA),通过重新组织数据布局适配GPU硬件,显著提升了计算效率。
进一步地,团队提出了混合深度注意力机制(MoDA),将深度检索与序列检索融合为统一操作。模型可以同时关注序列中的其他token和跨层的历史信息,从而更灵活地聚合信息。实验表明,这种方法不仅提升了模型性能,还缓解了注意力沉没现象。
大模型架构的上半场聚焦于扩展组件,下半场则需要优化通信质量。深度残差的“+”曾带领我们走过了精彩的旅程,但如今是时候升级这座阶梯了。未来,神经网络中的每个组件或许都能直接与其他组件对话,真正实现高效的全局通信。
论文链接:https://arxiv.org/abs/2603.15619
代码链接:https://github.com/hustvl/MoDA
-
2026-04-19 22:26:56 -
2026-04-19 21:23:46 -
2026-04-19 19:19:25