6月10日,Meta公司推出LlamaRL强化学习框架,采用全异步分布式设计,在405B参数模型上将强化学习步骤时间从635.8秒缩短至59.5秒,速度提升10.7倍。强化学习通过反馈调整输出,已成为大语言模型优化性能的关键部分。然而,其高资源需求一直是个难题。LlamaRL基于PyTorch构建,通过独立执行器并行处理生成、训练和奖励模型,大幅减少等待时间。该框架利用NVIDIA NVLink技术和分布式直接内存访问(DDMA),使405B参数模型权重同步仅需2秒。测试显示,LlamaRL在8B、70B和405B模型上的训练时间分别缩短至8.90秒、20.67秒和59.5秒,性能稳定甚至有所提升,解决了内存限制和GPU效率问题,为大语言模型训练提供了高效解决方案。
原文链接
本文链接:https://kx.umi6.com/article/20057.html
转载请注明文章出处
相关推荐
换一换
Meta削减人工智能部门约600个职位,精简架构以加速组织转型
2025-10-23 02:55:30
张一鸣和奥特曼都得学小扎
2025-09-28 17:59:37
Manus卖给了Meta!年初火爆年底数十亿美元被收购
2025-12-30 09:09:23
苹果AI人才持续流失 又一位高管跳槽Meta!
2025-10-16 12:55:59
Meta 深化与 Arm 战略合作,AI 排名和推荐系统将使用 Neoverse IP 芯片
2025-10-16 09:49:47
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
Meta可能在明年初推出新AI大模型Avocado
2025-12-09 22:02:45
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
Meta斥资15亿美元在得州新建数据中心,加码人工智能布局
2025-10-16 02:44:30
Manus补上一块短板,但Meta AI的短板实在太多了
2026-01-02 18:29:42
Meta 签约多家媒体,为 Meta AI 聊天机器人带来更多新闻内容
2025-12-08 12:27:32
LeCun离职,Meta市值应声蒸发1400亿
2025-11-12 08:53:31
Meta 出手,帮家长从容应对孩子“AI 聊天成瘾”
2025-10-20 08:59:04
612 文章
397244 浏览
24小时热文
更多
-
2026-01-23 22:19:57 -
2026-01-23 22:18:50 -
2026-01-23 22:17:41