标题:1行代码提升大模型训练效率,Llama速度增1.47倍,华人团队研发
只需改动一行代码,就能将大模型训练效率提升至1.47倍。四名来自得克萨斯大学奥斯汀分校的华人学者提出了一种名为Cautious Optimizers的大模型训练优化器。该优化器不仅提升了训练速度,还确保了训练效果不下降,并适用于语言和视觉模型。
Cautious Optimizers基于哈密顿量和下降动力学原理,在加速的同时保持良好的收敛特性。研究团队在不同参数规模的Llama模型上进行了测试,最大加速率为47%。相关代码已在GitHub上开源,提供了详细的使用指南。
Cautious Optimizers通过引入掩蔽机制,避免参数更新方向与当前梯度方向相悖,从而防止损失函数暂时增加,减缓收敛速度。具体实现方式是在更新参数前增加一步计算,以过滤掉方向不一致的情形。这一机制有助于判断参数更新和梯度方向是否一致,从而提高训练效率。
研究人员在语言模型Llama和视觉模型MAE上进行了试验。结果显示,Cautious Optimizers显著提升了模型的收敛速度和平稳性。例如,在参数规模为1B的Llama模型上,Cautious Optimizers的样本效率分别比AdamW和Lion高47%和28%。同时,模型的困惑度也有所降低,表明其具有更好的泛化能力。
此外,研究者在六个GLUE下游任务上测试了Cautious Optimizers的效果,结果显示其平均得分比AdamW高出2%。对于视觉模型MAE,C-AdamW在ImageNet-1K数据集上的表现也优于AdamW。
该研究由四名华人学者完成,包括得克萨斯大学奥斯汀分校的助理教授Qiang Liu及其两名博士生Lizhang Chen和Bo Liu,以及SambaNova公司的高级ML工程师Kaizhao Liang。论文已发表于arXiv,代码可在GitHub上获取。
.png)

-
2025-07-20 17:06:49
-
2025-07-20 16:05:44
-
2025-07-20 16:05:36