1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

全新GPU高速互联设计助力大模型训练降本增效!北大/阶跃/曦智提出InfiniteHBD架构

随着大模型参数规模扩大,分布式训练成为AI发展核心路径。高带宽域设计对提升训练效率至关重要,但现有HBD架构在可扩展性、成本和容错能力等方面存在瓶颈。NVIDIA NVL-72等以交换机为中心的HBD成本高昂且扩展受限;Google TPUv3和Tesla Dojo等以GPU为中心的HBD易出现故障传播;TPUv4等混合架构虽有所改进,但仍不够理想。

为解决这些问题,北京大学、阶跃星辰和曦智科技的研究团队提出了InfiniteHBD,这是一种以光交换模组为核心的高带宽域架构。通过嵌入低成本光交换能力,InfiniteHBD实现了低成本可扩展性和节点级故障隔离能力。其单位成本仅为NVL-72的31%,GPU浪费率接近零,MFU相较NVIDIA DGX最高提升3.37倍。该项目论文已被SIGCOMM 2025接收。

InfiniteHBD包含三项关键创新:基于硅光子技术的OCS光电转换模组(OCSTrx)、可重配置的K-Hop Ring拓扑以及HBD-DCN编排算法。OCSTrx降低了成本和功耗,K-Hop Ring拓扑支持动态重构和故障隔离,HBD-DCN编排算法优化了节点放置以减少跨网络流量。

评估显示,InfiniteHBD在成本、能耗和GPU浪费率方面均优于现有架构,尤其在大规模训练中表现出色。团队由北京大学本科生寿晨宸领衔,通讯作者为刘古月,其研究方向包括机器学习系统与人工智能基础设施。阶跃星辰和曦智科技为项目提供了重要支持,上海智能算力科技有限公司正筹备相关应用实践。

原文链接
本文链接:https://kx.umi6.com/article/18817.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Nature最新封面:AI 训练 AI?也许越来越笨
2024-07-25 09:03:21
全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
2025-05-19 15:17:11
Meta的Llama 3是合成数据训练?数据荒了解一下
2024-08-05 09:02:16
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
2025-01-30 13:29:24
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
1行代码改进大模型训练,Llama训练速度升至1.47倍,华人团队出品
2024-11-27 22:05:11
上海第一批自动驾驶大模型训练数据采集车正式发车
2024-12-31 20:48:59
中信建投:计算机板块上半年业绩持续改善 看好AI软件&硬件、信创等板块投资机会
2025-09-05 09:17:05
博通公司股价盘初大涨15%市值增长2200亿美元 多家机构集体上调其目标价
2025-09-05 22:27:31
硅谷版的“莞莞类卿”?分析师称博通业绩增速令人想起早年的英伟达
2025-09-06 15:35:56
AIDC高速互联需求不止 OCS会是下一个答案吗?
2025-09-06 08:33:16
OpenAI 不想再「跪着」买显卡了
2025-09-05 18:24:42
商汤日日新为 Claude API 用户提供“搬家”服务:可获 5000 万 Tokens 体验包
2025-09-06 15:35:37
24小时热文
更多
扫一扫体验小程序