LlamaRL - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Meta 推 LlamaRL 强化学习框架：全异步分布设计，训练 AI 模型提速 10.7 倍

6月10日，Meta公司推出LlamaRL强化学习框架，采用全异步分布式设计，在405B参数模型上将强化学习步骤时间从635.8秒缩短至59.5秒，速度提升10.7倍。强化学习通过反馈调整输出，已成为大语言模型优化性能的关键部分。然而，其高资源需求一直是个难题。LlamaRL基于PyTorch构建，通过独立执行器并行处理生成、训练和奖励模型，大幅减少等待时间。该框架利用NVIDIA NVLink技术和分布式直接内存访问（DDMA），使405B参数模型权重同步仅需2秒。测试显示，LlamaRL在8B、70B和405B模型上的训练时间分别缩短至8.90秒、20.67秒和59.5秒，性能稳定甚至有所提升，解决了内存限制和GPU效率问题，为大语言模型训练提供了高效解决方案。

原文链接