1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型架构的下半场

华中科技大学王兴刚团队投稿
量子位 | 公众号 QbitAI

过去十年,深度学习领域的进展几乎都围绕一个主题:把模型做大。更多参数、更多数据、更长上下文——这些方法确实有效,推动了能力的提升和loss的下降。然而,扩展的方向不同,带来的挑战也各异。序列长度的扩展催生了注意力机制和位置编码的创新;数据扩展直截了当,更多数据意味着更低的loss;但模型的宽度和深度扩展却并不对等。

宽度扩展得益于现代GPU对矩阵运算的优化,而深度扩展则面临瓶颈。尽管模型层数从32层增加到100层以上,但层间通信机制几乎没有变化,依然依赖于2015年ResNet提出的深度残差连接(x + F(x))。这种机制虽然重要,但也带来了“信息稀释”问题:随着层数增加,原始信号被层层叠加的内容淹没,导致许多层选择“沉默”,不再贡献新信息。

这一问题的核心在于层间通信能力不足。类似CPU的内存带宽限制或组织管理中的沟通障碍,深度学习也需要更好的信息流动方式。现有改进方案如DenseNet、Hyper-Connections等,试图通过混合各层输出解决问题,但它们依然基于累加框架,而非检索框架。累加框架的问题在于,它只根据当前层状态生成权重,而不查看信息来源的实际内容。

研究团队提出了一种新思路:将层间通信视为检索而非累加。通过在深度维度引入注意力机制,模型可以直接从特定层检索所需信息,而非被动接收所有层的混合结果。谷歌、华为等团队的独立研究也验证了这一方向的潜力。然而,工程实现面临挑战:跨深度的小规模注意力操作效率低下。为此,研究团队开发了Flash Depth Attention(FDA),通过重新组织数据布局适配GPU硬件,显著提升了计算效率。

进一步地,团队提出了混合深度注意力机制(MoDA),将深度检索与序列检索融合为统一操作。模型可以同时关注序列中的其他token和跨层的历史信息,从而更灵活地聚合信息。实验表明,这种方法不仅提升了模型性能,还缓解了注意力沉没现象。

大模型架构的上半场聚焦于扩展组件,下半场则需要优化通信质量。深度残差的“+”曾带领我们走过了精彩的旅程,但如今是时候升级这座阶梯了。未来,神经网络中的每个组件或许都能直接与其他组件对话,真正实现高效的全局通信。

论文链接:https://arxiv.org/abs/2603.15619
代码链接:https://github.com/hustvl/MoDA

原文链接
本文链接:https://kx.umi6.com/article/34941.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
国家统计局:国内市场供需改善、市场竞争秩序持续逐步优化是影响PPI上涨主导原因
2026-04-16 10:58:03
全国首个AI短剧实验室启动 海选AI创意人才
2026-04-17 22:25:56
炸奥特曼的人被扒出来了
2026-04-16 09:49:54
字节跳动启动“豆包股”回购 回购价比授予价上浮约30%
2026-04-16 10:55:51
Kimi新论文:把KVCache玩成新商业模式了
2026-04-19 19:19:25
OpenAI推出药物研发AI模型 挑战谷歌
2026-04-17 05:42:36
山东:深入实施“人工智能+”行动 培育一批人工智能场景创新生态空间
2026-04-16 13:03:39
教龙虾玩手机!打通GUI智能体训练-评测-部署全流程,训练、真机、评测一站解决
2026-04-19 13:02:16
横扫全球15项SOTA!高德首个面向AGI的全栈具身技术体系大公开
2026-04-19 19:18:15
我用1分钟开发了个上线应用,有阿里Meoo谁还学编程啊
2026-04-16 11:56:36
爱仕达亮相中国人形机器人生态大会 展示“智慧零售”“无人化工厂”等三大场景
2026-04-17 16:12:09
美国Hermes Agent被质疑抄袭中国团队:竟反咬一口威胁删号
2026-04-17 01:33:03
Anthropic升级主力模型新版本 但“削弱”网络攻防能力
2026-04-17 16:10:59
24小时热文
更多
扫一扫体验小程序