阿里通义发布并行计算新策略：1.6B等效4.4B，内存消耗骤降95%

2025-05-28 16:40:38

数码游侠

发布在

科普

阅读：451

阿里通义发布并行计算新策略：1.6B等效4.4B，内存消耗骤降95%

既能提升模型能力，又不显著增加内存和时间成本，LLM第三种Scaling Law被提出。

对于1.6B模型，能实现性能接近4.4B模型，内存占用仅为后者的1/22，延迟增加量为1/6。该策略可直接应用于现有模型（如Qwen-2.5），无需从头训练。

这就是阿里通义团队提出的PARSCALE。

目前LLMs的优化主要有两种思路：参数扩展（如GPT-4）和推理时间扩展（如DeepSeek-R1），但会增加内存和时间成本。阿里通义团队提出的新范式受CFG（无分类器引导）双路径推理机制的启发，将CFG的并行思想从“生成阶段的推理优化”扩展为“训练和推理全流程的『计算缩放』”。

PARSCALE通过可学习的多路径输入变换、动态聚合权重及全流程并行优化，将CFG的“双路径启发”升级为通用计算缩放范式。当P=8时，1.6B模型在HumanEval上的表现接近4.4B模型，但内存占用仅为后者的1/22，延迟增加量为1/6。在GSM8K数学推理任务中，P=8使1.8B模型性能提升34%，显著优于参数扩展的增益。

研究团队采用两阶段训练策略，先用传统方法预训练至收敛，再冻结主体参数，仅训练前缀嵌入和聚合权重，大幅降低训练成本。此外，PARSCALE还可适配现有模型，在Qwen-2.5-3B模型上通过持续预训练和参数高效微调（PEFT）提升代码生成任务表现。

论文链接：https://arxiv.org/abs/2505.10475
代码地址：https://github.com/QwenLM/ParScale
参考链接：https://x.com/iScienceLuvr/status/1923262107845525660

原文链接

本文链接：https://kx.umi6.com/article/19352.html

转载请注明文章出处

PARSCALE