大模型架构的下半场

2026-04-19 19:17:03

大模型架构的下半场

虚拟微光

发布在

科普

阅读：404

标题：大模型架构的下半场

华中科技大学王兴刚团队投稿
量子位 | 公众号 QbitAI

过去十年，深度学习领域的进展几乎都围绕一个主题：把模型做大。更多参数、更多数据、更长上下文——这些方法确实有效，推动了能力的提升和loss的下降。然而，扩展的方向不同，带来的挑战也各异。序列长度的扩展催生了注意力机制和位置编码的创新；数据扩展直截了当，更多数据意味着更低的loss；但模型的宽度和深度扩展却并不对等。

宽度扩展得益于现代GPU对矩阵运算的优化，而深度扩展则面临瓶颈。尽管模型层数从32层增加到100层以上，但层间通信机制几乎没有变化，依然依赖于2015年ResNet提出的深度残差连接（x + F(x)）。这种机制虽然重要，但也带来了“信息稀释”问题：随着层数增加，原始信号被层层叠加的内容淹没，导致许多层选择“沉默”，不再贡献新信息。

这一问题的核心在于层间通信能力不足。类似CPU的内存带宽限制或组织管理中的沟通障碍，深度学习也需要更好的信息流动方式。现有改进方案如DenseNet、Hyper-Connections等，试图通过混合各层输出解决问题，但它们依然基于累加框架，而非检索框架。累加框架的问题在于，它只根据当前层状态生成权重，而不查看信息来源的实际内容。

研究团队提出了一种新思路：将层间通信视为检索而非累加。通过在深度维度引入注意力机制，模型可以直接从特定层检索所需信息，而非被动接收所有层的混合结果。谷歌、华为等团队的独立研究也验证了这一方向的潜力。然而，工程实现面临挑战：跨深度的小规模注意力操作效率低下。为此，研究团队开发了Flash Depth Attention（FDA），通过重新组织数据布局适配GPU硬件，显著提升了计算效率。

进一步地，团队提出了混合深度注意力机制（MoDA），将深度检索与序列检索融合为统一操作。模型可以同时关注序列中的其他token和跨层的历史信息，从而更灵活地聚合信息。实验表明，这种方法不仅提升了模型性能，还缓解了注意力沉没现象。

大模型架构的上半场聚焦于扩展组件，下半场则需要优化通信质量。深度残差的“+”曾带领我们走过了精彩的旅程，但如今是时候升级这座阶梯了。未来，神经网络中的每个组件或许都能直接与其他组件对话，真正实现高效的全局通信。

论文链接：https://arxiv.org/abs/2603.15619
代码链接：https://github.com/hustvl/MoDA

原文链接

本文链接：https://kx.umi6.com/article/34941.html

转载请注明文章出处

大模型架构