1行代码改进大模型训练，Llama训练速度升至1.47倍，华人团队出品

2024-11-27 22:05:11

虚拟微光

发布在

科普

阅读：167

标题：1行代码提升大模型训练效率，Llama速度增1.47倍，华人团队研发

只需改动一行代码，就能将大模型训练效率提升至1.47倍。四名来自得克萨斯大学奥斯汀分校的华人学者提出了一种名为Cautious Optimizers的大模型训练优化器。该优化器不仅提升了训练速度，还确保了训练效果不下降，并适用于语言和视觉模型。

Cautious Optimizers基于哈密顿量和下降动力学原理，在加速的同时保持良好的收敛特性。研究团队在不同参数规模的Llama模型上进行了测试，最大加速率为47%。相关代码已在GitHub上开源，提供了详细的使用指南。

Cautious Optimizers通过引入掩蔽机制，避免参数更新方向与当前梯度方向相悖，从而防止损失函数暂时增加，减缓收敛速度。具体实现方式是在更新参数前增加一步计算，以过滤掉方向不一致的情形。这一机制有助于判断参数更新和梯度方向是否一致，从而提高训练效率。

研究人员在语言模型Llama和视觉模型MAE上进行了试验。结果显示，Cautious Optimizers显著提升了模型的收敛速度和平稳性。例如，在参数规模为1B的Llama模型上，Cautious Optimizers的样本效率分别比AdamW和Lion高47%和28%。同时，模型的困惑度也有所降低，表明其具有更好的泛化能力。

此外，研究者在六个GLUE下游任务上测试了Cautious Optimizers的效果，结果显示其平均得分比AdamW高出2%。对于视觉模型MAE，C-AdamW在ImageNet-1K数据集上的表现也优于AdamW。

该研究由四名华人学者完成，包括得克萨斯大学奥斯汀分校的助理教授Qiang Liu及其两名博士生Lizhang Chen和Bo Liu，以及SambaNova公司的高级ML工程师Kaizhao Liang。论文已发表于arXiv，代码可在GitHub上获取。

原文链接

本文链接：https://kx.umi6.com/article/9371.html

转载请注明文章出处

Cautious Optimizers