1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:1行代码提升大模型训练效率,Llama速度增1.47倍,华人团队研发

只需改动一行代码,就能将大模型训练效率提升至1.47倍。四名来自得克萨斯大学奥斯汀分校的华人学者提出了一种名为Cautious Optimizers的大模型训练优化器。该优化器不仅提升了训练速度,还确保了训练效果不下降,并适用于语言和视觉模型。

Cautious Optimizers基于哈密顿量和下降动力学原理,在加速的同时保持良好的收敛特性。研究团队在不同参数规模的Llama模型上进行了测试,最大加速率为47%。相关代码已在GitHub上开源,提供了详细的使用指南。

Cautious Optimizers通过引入掩蔽机制,避免参数更新方向与当前梯度方向相悖,从而防止损失函数暂时增加,减缓收敛速度。具体实现方式是在更新参数前增加一步计算,以过滤掉方向不一致的情形。这一机制有助于判断参数更新和梯度方向是否一致,从而提高训练效率。

研究人员在语言模型Llama和视觉模型MAE上进行了试验。结果显示,Cautious Optimizers显著提升了模型的收敛速度和平稳性。例如,在参数规模为1B的Llama模型上,Cautious Optimizers的样本效率分别比AdamW和Lion高47%和28%。同时,模型的困惑度也有所降低,表明其具有更好的泛化能力。

此外,研究者在六个GLUE下游任务上测试了Cautious Optimizers的效果,结果显示其平均得分比AdamW高出2%。对于视觉模型MAE,C-AdamW在ImageNet-1K数据集上的表现也优于AdamW。

该研究由四名华人学者完成,包括得克萨斯大学奥斯汀分校的助理教授Qiang Liu及其两名博士生Lizhang Chen和Bo Liu,以及SambaNova公司的高级ML工程师Kaizhao Liang。论文已发表于arXiv,代码可在GitHub上获取。

原文链接
本文链接:https://kx.umi6.com/article/9371.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
上海第一批自动驾驶大模型训练数据采集车正式发车
2024-12-31 20:48:59
Meta的Llama 3是合成数据训练?数据荒了解一下
2024-08-05 09:02:16
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
2025-05-19 15:17:11
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
2025-01-30 13:29:24
视频生成无损提速:删除多余token,训练时间减少30%,帧率越高效果越好
2024-11-18 10:15:10
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
2024-11-27 22:05:11
机构:ChatGPT在印度实现强劲增长 8月下载量达1020万次
2025-09-05 09:15:57
视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
2025-09-05 22:26:24
联想发布全球首款AI电脑支架:集成追踪、语音与手势控制
2025-09-05 15:21:36
趁着HBM热潮加速!SK海力士Q2蝉联全球DRAM市占率第一
2025-09-05 13:22:16
Anthropic停服 智谱回应推出“Claude API 用户特别搬家计划”
2025-09-05 19:25:32
24小时热文
更多
扫一扫体验小程序