10万卡集群:通往AGI的新门票
美国大模型公司的标配
10万卡集群正成为美国大模型公司的标配。拾象发布的AI时代的纳斯达克指数AGIX Index,重点关注AI行业的“硬件投入—基础设施建设—应用爆发”三个阶段,其中硬件和基础设施是AGIX Index的焦点领域。
AGI的硬件投入持续升温
新一轮10万卡集群竞赛凸显了AGI基础设施建设的热度。马斯克、OpenAI/Microsoft、Anthropic/AWS、Meta等大型AI公司都在加速建设10万卡集群,每个集群的服务器硬件投入超过40亿美元。然而,构建这样一个集群不仅涉及复杂的工程技术,还需要解决电力、并行计算、网络拓扑、可靠性等多方面的挑战。
数据中心的角色与挑战
数据中心是新一代计算单元,决定了芯片能否转化为算力,支持模型实现“跳变式跨越”。在AGI竞赛中,数据中心的重要性不亚于GPU。构建大型AI训练集群需要考虑诸多挑战,包括电力能源、并行计算、网络拓扑、可靠性等,涉及英伟达、博通、TSMC、MRVL、SK Hynix、VRT等头部公司的合作。
硬件公司的角色
本文聚焦于英伟达、博通为代表的硬件公司如何构建大型AI训练集群。随着GPT-4的发布,AI模型能力的跃升面临挑战,关键在于如何在单一模型上大幅增加计算量。目前,AI实验室在训练计算量上仍停留在GPT-4水平,而OpenAI等公司正在积极筹备下一代模型的训练。
电力消耗与成本考量
一个10万GPU集群需要超过150MW的数据中心容量,一年的能耗约为1.59TWh,相当于15万个家庭一年的用电量。按$0.078/Kwh的单价计算,仅电力一项,集群每年的支出高达1.239亿美元。
大规模模型训练的算力提升
训练万亿参数的模型时,使用H100的集群峰值吞吐量可达198 FP8 ExaFLOP/s或99 FP16 ExaFLOP/s,理论峰值是2万张A100 GPU集群训练时最大FLOPS的31.5倍。
数据中心的电力问题
支持10万H100集群所需的功率大约是150MW,尽管单个GPU功率只有700W,但由于H100服务器内包含CPU、NI(网络接口卡)、PSU(电源供应单元)等部件,每个GPU额外消耗约575W。除了H100,集群还需要存储服务器、网络交换机、CPU节点、光模块等,这些设备额外消耗约10%的IT功率。
网络设计与优化
10万GPU集群需要通过光纤收发器联网,传输距离的增加导致成本上升。多模光纤和单模光纤在成本、传输距离和性能上有显著差异,园区级别的800G相干光收发器成本高昂。大型集群通常需要增加交换机,以降低网络成本和提高性能。
并行计算方式
万亿参数训练中使用的并行方式包括数据并行、张量并行和流水线并行。数据并行最简单,但需要足够的内存;张量并行通过跨设备交换减少内存需求;流水线并行进一步减少内存负担。结合这三种方式形成3D并行,以最大化模型浮点运算利用率(MFU)。
超级AI算力集群的网络设计
AI算力集群的网络设计围绕数据并行展开,考虑成本、性能和可靠性。拓扑结构选择考虑了成本和带宽需求,采用带宽过度订阅的策略来平衡网络复杂性和成本。InfiniBand和以太网的混合架构是常见选择,以满足不同并行计算需求。
网络交换机技术对比
Spectrum-X NVIDIA、Broadcom Tomahawk 5等网络交换机在性能、成本和可靠性方面各有优势。Spectrum-X提供一级NCCL支持,而Tomahawk 5则需要更多工程优化以实现类似性能。
CAPEX成本计算
构建10万卡集群的总投资约为40亿美元,不同网络选择的成本差异显著。基于Broadcom Tomahawk 5的方案被认为是最具成本效益的,提供了高性价比。
机架布局和平面图优化
优化机架布局是提高数据中心效率的关键,通过铜缆和多模光纤的高效使用来降低成本。采用Rail Optimized设计的平面图示例展示了如何优化光纤使用,以减少成本和提高效率。
结论
10万卡集群已成为推动AGI发展的重要基础设施。硬件投入、网络设计、成本控制和可靠性优化等多方面考虑,使得这一目标成为可能。随着技术进步和成本优化,这一领域有望迎来更多创新和突破。
.png)

-
2025-07-19 21:58:20
-
2025-07-19 21:57:13
-
2025-07-19 20:57:00