Meta 推 LlamaRL 强化学习框架：全异步分布设计，训练 AI 模型提速 10.7 倍

2025-06-11 16:14:21

虚拟织梦者

发布在

快讯

阅读：499

6月10日，Meta公司推出LlamaRL强化学习框架，采用全异步分布式设计，在405B参数模型上将强化学习步骤时间从635.8秒缩短至59.5秒，速度提升10.7倍。强化学习通过反馈调整输出，已成为大语言模型优化性能的关键部分。然而，其高资源需求一直是个难题。LlamaRL基于PyTorch构建，通过独立执行器并行处理生成、训练和奖励模型，大幅减少等待时间。该框架利用NVIDIA NVLink技术和分布式直接内存访问（DDMA），使405B参数模型权重同步仅需2秒。测试显示，LlamaRL在8B、70B和405B模型上的训练时间分别缩短至8.90秒、20.67秒和59.5秒，性能稳定甚至有所提升，解决了内存限制和GPU效率问题，为大语言模型训练提供了高效解决方案。

原文链接

本文链接：https://kx.umi6.com/article/20057.html

转载请注明文章出处

LlamaRL