综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
11月20日,蚂蚁集团宣布开源万亿参数强化学习高性能权重交换框架Awex。该框架基于其自研技术,能够在数千卡GPU集群上实现5-10秒内完成万亿参数级别的权重同步。今年10月,蚂蚁集团已开源两款旗舰模型:非思考模型Ling-1T和思考模型Ring-1T,其中Ring-1T正是依托Awex框架开发。这一开源项目为大规模人工智能模型训练提供了重要技术支持,进一步推动了高性能计算与强化学习领域的发展。
原文链接
正文:11月20日,蚂蚁集团宣布开源万亿参数强化学习高性能权重交换框架Awex。该框架专为解决RL训练中权重参数同步问题设计,可在秒级完成TB级大规模参数交换,显著降低训练延迟。其主要特点包括极速同步性能(千卡集群6秒内全量同步)、统一模型适配、零冗余传输、多模式传输支持及异构部署兼容等。Awex由WeightWriter、WeightReader和MetaServer三大组件构成,核心功能模块涵盖训推权重转换、元数据计算与交换、P2P传输计划及NCCL/RDMA传输。在千卡集群上,使用RDMA传输1TB模型权重仅需6秒。目前,Awex已支持Megatron和SGLang引擎,并计划未来开源ASystem的其他核心RL组件,进一步完善强化学习生态。
原文链接
加载更多
暂无内容