1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10万卡集群:通往AGI的新门票

美国大模型公司的标配

10万卡集群正成为美国大模型公司的标配。拾象发布的AI时代的纳斯达克指数AGIX Index,重点关注AI行业的“硬件投入—基础设施建设—应用爆发”三个阶段,其中硬件和基础设施是AGIX Index的焦点领域。

AGI的硬件投入持续升温

新一轮10万卡集群竞赛凸显了AGI基础设施建设的热度。马斯克、OpenAI/Microsoft、Anthropic/AWS、Meta等大型AI公司都在加速建设10万卡集群,每个集群的服务器硬件投入超过40亿美元。然而,构建这样一个集群不仅涉及复杂的工程技术,还需要解决电力、并行计算、网络拓扑、可靠性等多方面的挑战。

数据中心的角色与挑战

数据中心是新一代计算单元,决定了芯片能否转化为算力,支持模型实现“跳变式跨越”。在AGI竞赛中,数据中心的重要性不亚于GPU。构建大型AI训练集群需要考虑诸多挑战,包括电力能源、并行计算、网络拓扑、可靠性等,涉及英伟达、博通、TSMC、MRVL、SK Hynix、VRT等头部公司的合作。

硬件公司的角色

本文聚焦于英伟达、博通为代表的硬件公司如何构建大型AI训练集群。随着GPT-4的发布,AI模型能力的跃升面临挑战,关键在于如何在单一模型上大幅增加计算量。目前,AI实验室在训练计算量上仍停留在GPT-4水平,而OpenAI等公司正在积极筹备下一代模型的训练。

电力消耗与成本考量

一个10万GPU集群需要超过150MW的数据中心容量,一年的能耗约为1.59TWh,相当于15万个家庭一年的用电量。按$0.078/Kwh的单价计算,仅电力一项,集群每年的支出高达1.239亿美元。

大规模模型训练的算力提升

训练万亿参数的模型时,使用H100的集群峰值吞吐量可达198 FP8 ExaFLOP/s或99 FP16 ExaFLOP/s,理论峰值是2万张A100 GPU集群训练时最大FLOPS的31.5倍。

数据中心的电力问题

支持10万H100集群所需的功率大约是150MW,尽管单个GPU功率只有700W,但由于H100服务器内包含CPU、NI(网络接口卡)、PSU(电源供应单元)等部件,每个GPU额外消耗约575W。除了H100,集群还需要存储服务器、网络交换机、CPU节点、光模块等,这些设备额外消耗约10%的IT功率。

网络设计与优化

10万GPU集群需要通过光纤收发器联网,传输距离的增加导致成本上升。多模光纤和单模光纤在成本、传输距离和性能上有显著差异,园区级别的800G相干光收发器成本高昂。大型集群通常需要增加交换机,以降低网络成本和提高性能。

并行计算方式

万亿参数训练中使用的并行方式包括数据并行、张量并行和流水线并行。数据并行最简单,但需要足够的内存;张量并行通过跨设备交换减少内存需求;流水线并行进一步减少内存负担。结合这三种方式形成3D并行,以最大化模型浮点运算利用率(MFU)。

超级AI算力集群的网络设计

AI算力集群的网络设计围绕数据并行展开,考虑成本、性能和可靠性。拓扑结构选择考虑了成本和带宽需求,采用带宽过度订阅的策略来平衡网络复杂性和成本。InfiniBand和以太网的混合架构是常见选择,以满足不同并行计算需求。

网络交换机技术对比

Spectrum-X NVIDIA、Broadcom Tomahawk 5等网络交换机在性能、成本和可靠性方面各有优势。Spectrum-X提供一级NCCL支持,而Tomahawk 5则需要更多工程优化以实现类似性能。

CAPEX成本计算

构建10万卡集群的总投资约为40亿美元,不同网络选择的成本差异显著。基于Broadcom Tomahawk 5的方案被认为是最具成本效益的,提供了高性价比。

机架布局和平面图优化

优化机架布局是提高数据中心效率的关键,通过铜缆和多模光纤的高效使用来降低成本。采用Rail Optimized设计的平面图示例展示了如何优化光纤使用,以减少成本和提高效率。

结论

10万卡集群已成为推动AGI发展的重要基础设施。硬件投入、网络设计、成本控制和可靠性优化等多方面考虑,使得这一目标成为可能。随着技术进步和成本优化,这一领域有望迎来更多创新和突破。

原文链接
本文链接:https://kx.umi6.com/article/3783.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
官宣!OpenAI加入机器人赛道,要打造实体AGI
2025-01-14 11:08:41
阿尔特曼:通用人工智能由 OpenAI 率先实现,人类将不再是地球上最聪明的
2025-01-16 17:02:08
刚刚,OpenAI 发布ChatGPT 版Manus,奥特曼:感受AGI 时刻
2025-07-18 05:34:23
24小时热文
更多
扫一扫体验小程序