阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出。
对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。该策略可直接应用于现有模型(如Qwen-2.5),无需从头训练。
这就是阿里通义团队提出的PARSCALE。
目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。阿里通义团队提出的新范式受CFG(无分类器引导)双路径推理机制的启发,将CFG的并行思想从“生成阶段的推理优化”扩展为“训练和推理全流程的『计算缩放』”。
PARSCALE通过可学习的多路径输入变换、动态聚合权重及全流程并行优化,将CFG的“双路径启发”升级为通用计算缩放范式。当P=8时,1.6B模型在HumanEval上的表现接近4.4B模型,但内存占用仅为后者的1/22,延迟增加量为1/6。在GSM8K数学推理任务中,P=8使1.8B模型性能提升34%,显著优于参数扩展的增益。
研究团队采用两阶段训练策略,先用传统方法预训练至收敛,再冻结主体参数,仅训练前缀嵌入和聚合权重,大幅降低训练成本。此外,PARSCALE还可适配现有模型,在Qwen-2.5-3B模型上通过持续预训练和参数高效微调(PEFT)提升代码生成任务表现。
论文链接:https://arxiv.org/abs/2505.10475
代码地址:https://github.com/QwenLM/ParScale
参考链接:https://x.com/iScienceLuvr/status/1923262107845525660
原文链接
本文链接:https://kx.umi6.com/article/19352.html
转载请注明文章出处
相关推荐
换一换
阿里通义推新一代语音模型Fun-ASR
2025-08-22 16:53:19
阿里通义多款大模型接入荣耀手机
2025-02-28 13:10:03
阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
2025-05-31 13:05:39
阿里通义上新:AI终于能做真正的PPT了!还免费
2024-09-02 06:12:57
我们要做3D界的ImageNet,推动具身智能训练新范式|群核科技唐睿@MEET2025
2024-12-19 15:58:33
阿里通义回应与Manus合作:确实在开源模型方面进行合作
2025-03-11 19:51:17
事关下一代大模型!斯坦福顶尖1%科学家许主洪加盟阿里通义
2025-09-30 12:26:16
阿里通义免费开放奥运AI大模型
2024-07-31 19:20:38
阿里通义林俊旸:已建立机器人和具身智能的小型团队
2025-10-09 09:24:45
阿里通义代码模式上线:号称即便不懂编程,也能大白话一键生成应用
2024-11-15 17:36:52
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
2025-05-06 15:53:06
发布首日下载量达 50 万,阿里通义详解最新 6B 小参数生图模型 Z-Image
2025-11-28 18:40:52
阿里通义将发布视频生成大模型,预约页面已上线
2024-09-15 19:13:18
589 文章
370314 浏览
24小时热文
更多
-
2025-12-18 01:11:33 -
2025-12-18 00:10:29 -
2025-12-18 00:09:16