6月10日,Meta公司推出LlamaRL强化学习框架,采用全异步分布式设计,在405B参数模型上将强化学习步骤时间从635.8秒缩短至59.5秒,速度提升10.7倍。强化学习通过反馈调整输出,已成为大语言模型优化性能的关键部分。然而,其高资源需求一直是个难题。LlamaRL基于PyTorch构建,通过独立执行器并行处理生成、训练和奖励模型,大幅减少等待时间。该框架利用NVIDIA NVLink技术和分布式直接内存访问(DDMA),使405B参数模型权重同步仅需2秒。测试显示,LlamaRL在8B、70B和405B模型上的训练时间分别缩短至8.90秒、20.67秒和59.5秒,性能稳定甚至有所提升,解决了内存限制和GPU效率问题,为大语言模型训练提供了高效解决方案。
原文链接
本文链接:https://kx.umi6.com/article/20057.html
转载请注明文章出处
相关推荐
.png)
换一换
Meta任命赵晟佳为超级智能实验室首席科学家
2025-07-26 06:33:54
媒体披露Meta允许聊天机器人与孩子进行“色情”聊天 公司称正在修改
2025-08-15 14:16:26
得州总检察长调查Meta和Character.AI
2025-08-19 09:57:59
Meta涨近2% 传公司斥资35亿美元加码AI智能眼镜业务
2025-07-09 23:10:50
Meta回应10亿美元挖人
2025-07-30 17:52:41
欧盟AI规则引爆硅谷裂痕:谷歌官宣准备签署,Meta唱反调
2025-07-30 21:53:09
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
扎克伯格下血本:Meta 计划今年砸 720 亿美元加码 AI 基础设施
2025-08-01 09:05:06
Meta全新AI组织架构曝光,这范儿有点字节
2025-07-18 15:39:38
特朗普:Meta将在路易斯安纳州建“500亿美元”AI数据中心
2025-08-27 06:56:52
无需外部数据!AI自问自答实现推理能力进化
2025-08-08 16:13:47
3亿美元薪酬被10人拒绝!OpenAI首席研究官一句话引发硅谷史上最疯狂抢人大战
2025-07-21 17:19:25
知名AI初创公司Anthropic扬言:Meta“天价招聘”奈何不了我
2025-07-21 17:23:59
476 文章
166784 浏览
24小时热文
更多

-
2025-09-07 21:49:50
-
2025-09-07 20:50:36
-
2025-09-07 20:49:25