6月10日,Meta公司推出LlamaRL强化学习框架,采用全异步分布式设计,在405B参数模型上将强化学习步骤时间从635.8秒缩短至59.5秒,速度提升10.7倍。强化学习通过反馈调整输出,已成为大语言模型优化性能的关键部分。然而,其高资源需求一直是个难题。LlamaRL基于PyTorch构建,通过独立执行器并行处理生成、训练和奖励模型,大幅减少等待时间。该框架利用NVIDIA NVLink技术和分布式直接内存访问(DDMA),使405B参数模型权重同步仅需2秒。测试显示,LlamaRL在8B、70B和405B模型上的训练时间分别缩短至8.90秒、20.67秒和59.5秒,性能稳定甚至有所提升,解决了内存限制和GPU效率问题,为大语言模型训练提供了高效解决方案。
原文链接
本文链接:https://kx.umi6.com/article/20057.html
转载请注明文章出处
相关推荐
换一换
DeepSeek首登《自然》封面:中国大模型创造新历史,做了OpenAI不敢做的事
2025-09-18 16:58:59
Meta的尴尬时刻:首款带屏AI+AR眼镜发布却两度“翻车” AR热潮会否开启?
2025-09-18 13:54:27
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
又一高管弃库克而去!苹果UI设计负责人转投Meta
2025-12-04 16:28:47
苹果人工智能团队再现人才流失:一位机器人专家已跳槽Meta
2025-09-03 16:48:57
Meta斥资15亿美元在得州新建数据中心,加码人工智能布局
2025-10-16 02:44:30
扎克伯格不挖人了?消息称 Meta 考虑采用 OpenAI 或谷歌的 AI 模型
2025-08-30 10:50:03
发自 凹非寺量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们是OpenAI首席科学家Jakub Pachocki以及头衔为“Technical Fellow”的Szymon Sidor。 △左:Jakub Pachocki,右:Szymon Sidor 两人不仅是波兰老乡,而且是高中同学,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背
2025-09-09 18:18:27
Meta内部混乱持续:FAIR自由不再,LeCun考虑辞职
2025-10-03 13:40:34
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
Meta GenAI产品总监加入OpenAI
2025-08-27 21:08:35
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
Meta和Scale AI闹翻,砸143亿买的高管跑路
2025-09-01 18:22:19
569 文章
326181 浏览
24小时热文
更多
-
2025-12-08 22:52:38 -
2025-12-08 22:51:57 -
2025-12-08 22:51:33