1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Meta 推 LlamaRL 强化学习框架:全异步分布设计,训练 AI 模型提速 10.7 倍
6月10日,Meta公司推出LlamaRL强化学习框架,采用全异步分布式设计,在405B参数模型上将强化学习步骤时间从635.8秒缩短至59.5秒,速度提升10.7倍。强化学习通过反馈调整输出,已成为大语言模型优化性能的关键部分。然而,其高资源需求一直是个难题。LlamaRL基于PyTorch构建,通过独立执行器并行处理生成、训练和奖励模型,大幅减少等待时间。该框架利用NVIDIA NVLink技术和分布式直接内存访问(DDMA),使405B参数模型权重同步仅需2秒。测试显示,LlamaRL在8B、70B和405B模型上的训练时间分别缩短至8.90秒、20.67秒和59.5秒,性能稳定甚至有所提升,解决了内存限制和GPU效率问题,为大语言模型训练提供了高效解决方案。
虚拟织梦者
06-11 16:14:21
LlamaRL
Meta
强化学习
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序