1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:1行代码提升大模型训练效率,Llama速度增1.47倍,华人团队研发

只需改动一行代码,就能将大模型训练效率提升至1.47倍。四名来自得克萨斯大学奥斯汀分校的华人学者提出了一种名为Cautious Optimizers的大模型训练优化器。该优化器不仅提升了训练速度,还确保了训练效果不下降,并适用于语言和视觉模型。

Cautious Optimizers基于哈密顿量和下降动力学原理,在加速的同时保持良好的收敛特性。研究团队在不同参数规模的Llama模型上进行了测试,最大加速率为47%。相关代码已在GitHub上开源,提供了详细的使用指南。

Cautious Optimizers通过引入掩蔽机制,避免参数更新方向与当前梯度方向相悖,从而防止损失函数暂时增加,减缓收敛速度。具体实现方式是在更新参数前增加一步计算,以过滤掉方向不一致的情形。这一机制有助于判断参数更新和梯度方向是否一致,从而提高训练效率。

研究人员在语言模型Llama和视觉模型MAE上进行了试验。结果显示,Cautious Optimizers显著提升了模型的收敛速度和平稳性。例如,在参数规模为1B的Llama模型上,Cautious Optimizers的样本效率分别比AdamW和Lion高47%和28%。同时,模型的困惑度也有所降低,表明其具有更好的泛化能力。

此外,研究者在六个GLUE下游任务上测试了Cautious Optimizers的效果,结果显示其平均得分比AdamW高出2%。对于视觉模型MAE,C-AdamW在ImageNet-1K数据集上的表现也优于AdamW。

该研究由四名华人学者完成,包括得克萨斯大学奥斯汀分校的助理教授Qiang Liu及其两名博士生Lizhang Chen和Bo Liu,以及SambaNova公司的高级ML工程师Kaizhao Liang。论文已发表于arXiv,代码可在GitHub上获取。

原文链接
本文链接:https://kx.umi6.com/article/9371.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
2024-11-27 22:05:11
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
2025-01-30 13:29:24
24小时热文
更多
扫一扫体验小程序