1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出。

对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。该策略可直接应用于现有模型(如Qwen-2.5),无需从头训练。

这就是阿里通义团队提出的PARSCALE。

目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发,将CFG的并行思想从“生成阶段的推理优化”扩展为“训练和推理全流程的『计算缩放』”。

PARSCALE通过可学习的多路径输入变换、动态聚合权重及全流程并行优化,将CFG的“双路径启发”升级为通用计算缩放范式。当P=8时,1.6B模型在HumanEval上的表现接近4.4B模型,但内存占用仅为后者的1/22,延迟增加量为1/6。在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%,显著优于参数扩展的增益。

研究团队采用两阶段训练策略,先用传统方法预训练至收敛,再冻结主体参数,仅训练前缀嵌入和聚合权重,大幅降低训练成本。此外,PARSCALE还可适配现有模型,在Qwen-2.5-3B模型上通过持续预训练和参数高效微调(PEFT)提升代码生成任务表现。

论文链接:https://arxiv.org/abs/2505.10475
代码地址:https://github.com/QwenLM/ParScale
参考链接:https://x.com/iScienceLuvr/status/1923262107845525660

原文链接
本文链接:https://kx.umi6.com/article/19352.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里通义上新:AI终于能做真正的PPT了!还免费
2024-09-02 06:12:57
阿里通义实验室开源检索增强预训练框架MaskSearch
2025-06-10 12:49:05
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
2025-05-28 16:40:38
24小时热文
更多
扫一扫体验小程序