1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:计算所严明玉团队新作:Attention 并非永远是瓶颈,多 GPU 并不一定更快

随着大语言模型逐步应用于实际场景,推理性能成为落地的关键挑战。模型规模扩大、上下文增长以及 RAG、MoE 等新方法的引入,使得延迟、吞吐和能耗问题更加复杂。中国科学院计算所严明玉团队联合中国电信云计算研究院、浙江实验室和北京大学,在论文《A Systematic Characterization of LLM Inference on GPUs》中,系统研究了大语言模型在 GPU 上的推理行为。

研究从系统与硬件协同的角度出发,通过大规模实验揭示了大模型推理性能的根本规律。团队发现,推理过程可分为两个阶段:Prefill 和 Decode。Prefill 阶段处理用户输入,以并行计算为主,受限于算力;Decode 阶段逐个生成输出 token,受限于内存带宽和访问延迟。性能瓶颈取决于输入和输出长度:短输入时 Decode 占主导,长输入时 Prefill 成为主要耗时部分。

进一步分析表明,瓶颈并非固定。在 Prefill 阶段,前馈网络(FFN)通常是主要耗时点,但长上下文中注意力计算(Attention)可能成为瓶颈;在 Decode 阶段,小模型中 Attention 更易受限,而大模型中 FFN 的内存加载成本更突出。此外,Prefill 的延迟与输入长度呈线性关系,较易预测,而 Decode 因逐步生成且受采样影响,波动较大。

能耗方面,Decode 阶段占总能耗绝大部分,限制输出长度比优化 Prefill 更有效。多 GPU 并行化在 Prefill 阶段通常有效,但在 Decode 阶段因通信开销反而可能变慢。对于 MoE 模型,推理速度取决于实际参与计算的参数量,但 Decode 阶段额外引入专家选择开销;RAG 工作流则可能将瓶颈转移到 CPU 侧的检索和内存访问。

研究覆盖多种硬件平台(如 A100 和 Jetson AGX Orin)和主流模型(7B 至 32B),并通过多样化工作负载验证结论。论文的意义在于建立了一套统一的性能认知框架,纠正了多个直觉性误解,并为系统优化提供了理论支持。

通讯作者严明玉教授长期从事计算机体系结构研究,其成果兼具理论深度与实践价值,曾获多项国际认可。论文链接:https://arxiv.org/pdf/2512.01644v1

原文链接
本文链接:https://kx.umi6.com/article/30608.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
知情人士:美国将限制中国经第三国购买GPU AI芯片
2024-12-13 13:26:57
Meta 宣布今年将投入至少 600 亿美元,在美国路易斯安那州兴建坐拥 130 万颗 GPU 的 AI 数据中心
2025-02-01 21:31:21
英伟达新GPU再王炸,也得靠蹭DeepSeek卖卡
2025-03-20 19:45:35
英伟达财报会实录:三大转型驱动AI基建投资 5000亿美元收入目标有望再突破
2025-11-20 09:13:51
新国产GPU「曦望」,刚融了10个亿
2025-06-30 18:45:32
2026,AI算力新江湖
2026-01-31 12:36:53
谷歌推出 Gemma 3:号称可在单块 GPU 上运行的最强 AI 模型
2025-03-12 17:35:56
2025,谁是边缘AI芯片架构之王?
2025-05-23 11:48:25
ChatGPT 文生图功能爆火致 GPU 超负荷,OpenAI 临时限流应对
2025-03-28 12:44:38
马斯克 Colossus 超算首阶段全面投用:20 万个 GPU、150MW 备用电池加持
2025-05-08 20:38:19
Deepseek大模型推理算法其实很简单
2025-02-09 16:51:53
马斯克xAI超算将扩张十倍!100万个GPU值得英伟达开个分公司
2024-12-05 15:06:13
摩尔线程GPU适配超图软件大模型:打造国产地理空间AI
2024-10-24 01:53:12
24小时热文
更多
扫一扫体验小程序