全新GPU高速互联设计，为大模型训练降本增效！北大/阶跃/曦智提出新一代高带宽域架构

2025-05-19 15:17:11

WisdomTrail

发布在

科普

阅读：1131

全新GPU高速互联设计助力大模型训练降本增效！北大/阶跃/曦智提出InfiniteHBD架构

随着大模型参数规模扩大，分布式训练成为AI发展核心路径。高带宽域设计对提升训练效率至关重要，但现有HBD架构在可扩展性、成本和容错能力等方面存在瓶颈。NVIDIA NVL-72等以交换机为中心的HBD成本高昂且扩展受限；Google TPUv3和Tesla Dojo等以GPU为中心的HBD易出现故障传播；TPUv4等混合架构虽有所改进，但仍不够理想。

为解决这些问题，北京大学、阶跃星辰和曦智科技的研究团队提出了InfiniteHBD，这是一种以光交换模组为核心的高带宽域架构。通过嵌入低成本光交换能力，InfiniteHBD实现了低成本可扩展性和节点级故障隔离能力。其单位成本仅为NVL-72的31%，GPU浪费率接近零，MFU相较NVIDIA DGX最高提升3.37倍。该项目论文已被SIGCOMM 2025接收。

InfiniteHBD包含三项关键创新：基于硅光子技术的OCS光电转换模组（OCSTrx）、可重配置的K-Hop Ring拓扑以及HBD-DCN编排算法。OCSTrx降低了成本和功耗，K-Hop Ring拓扑支持动态重构和故障隔离，HBD-DCN编排算法优化了节点放置以减少跨网络流量。

评估显示，InfiniteHBD在成本、能耗和GPU浪费率方面均优于现有架构，尤其在大规模训练中表现出色。团队由北京大学本科生寿晨宸领衔，通讯作者为刘古月，其研究方向包括机器学习系统与人工智能基础设施。阶跃星辰和曦智科技为项目提供了重要支持，上海智能算力科技有限公司正筹备相关应用实践。

原文链接

本文链接：https://kx.umi6.com/article/18817.html

转载请注明文章出处

GPU高速互联