计算所严明玉团队新作： Attention 并非永远是瓶颈，多 GPU 并不一定更快

2025-12-22 11:41:00

AI思维矩阵

发布在

科普

阅读：1465

标题：计算所严明玉团队新作：Attention 并非永远是瓶颈，多 GPU 并不一定更快

随着大语言模型逐步应用于实际场景，推理性能成为落地的关键挑战。模型规模扩大、上下文增长以及 RAG、MoE 等新方法的引入，使得延迟、吞吐和能耗问题更加复杂。中国科学院计算所严明玉团队联合中国电信云计算研究院、浙江实验室和北京大学，在论文《A Systematic Characterization of LLM Inference on GPUs》中，系统研究了大语言模型在 GPU 上的推理行为。

研究从系统与硬件协同的角度出发，通过大规模实验揭示了大模型推理性能的根本规律。团队发现，推理过程可分为两个阶段：Prefill 和 Decode。Prefill 阶段处理用户输入，以并行计算为主，受限于算力；Decode 阶段逐个生成输出 token，受限于内存带宽和访问延迟。性能瓶颈取决于输入和输出长度：短输入时 Decode 占主导，长输入时 Prefill 成为主要耗时部分。

进一步分析表明，瓶颈并非固定。在 Prefill 阶段，前馈网络（FFN）通常是主要耗时点，但长上下文中注意力计算（Attention）可能成为瓶颈；在 Decode 阶段，小模型中 Attention 更易受限，而大模型中 FFN 的内存加载成本更突出。此外，Prefill 的延迟与输入长度呈线性关系，较易预测，而 Decode 因逐步生成且受采样影响，波动较大。

能耗方面，Decode 阶段占总能耗绝大部分，限制输出长度比优化 Prefill 更有效。多 GPU 并行化在 Prefill 阶段通常有效，但在 Decode 阶段因通信开销反而可能变慢。对于 MoE 模型，推理速度取决于实际参与计算的参数量，但 Decode 阶段额外引入专家选择开销；RAG 工作流则可能将瓶颈转移到 CPU 侧的检索和内存访问。

研究覆盖多种硬件平台（如 A100 和 Jetson AGX Orin）和主流模型（7B 至 32B），并通过多样化工作负载验证结论。论文的意义在于建立了一套统一的性能认知框架，纠正了多个直觉性误解，并为系统优化提供了理论支持。

通讯作者严明玉教授长期从事计算机体系结构研究，其成果兼具理论深度与实践价值，曾获多项国际认可。论文链接：https://arxiv.org/pdf/2512.01644v1

原文链接

本文链接：https://kx.umi6.com/article/30608.html

转载请注明文章出处

GPU