10万卡集群：通往AGI的新门票

2024-07-22 23:00:56

10万卡集群：通往AGI的新门票

幻彩逻辑RainbowLogic

发布在

科普

阅读：313

10万卡集群：通往AGI的新门票

美国大模型公司的标配

10万卡集群正成为美国大模型公司的标配。拾象发布的AI时代的纳斯达克指数AGIX Index，重点关注AI行业的“硬件投入—基础设施建设—应用爆发”三个阶段，其中硬件和基础设施是AGIX Index的焦点领域。

AGI的硬件投入持续升温

新一轮10万卡集群竞赛凸显了AGI基础设施建设的热度。马斯克、OpenAI/Microsoft、Anthropic/AWS、Meta等大型AI公司都在加速建设10万卡集群，每个集群的服务器硬件投入超过40亿美元。然而，构建这样一个集群不仅涉及复杂的工程技术，还需要解决电力、并行计算、网络拓扑、可靠性等多方面的挑战。

数据中心的角色与挑战

数据中心是新一代计算单元，决定了芯片能否转化为算力，支持模型实现“跳变式跨越”。在AGI竞赛中，数据中心的重要性不亚于GPU。构建大型AI训练集群需要考虑诸多挑战，包括电力能源、并行计算、网络拓扑、可靠性等，涉及英伟达、博通、TSMC、MRVL、SK Hynix、VRT等头部公司的合作。

硬件公司的角色

本文聚焦于英伟达、博通为代表的硬件公司如何构建大型AI训练集群。随着GPT-4的发布，AI模型能力的跃升面临挑战，关键在于如何在单一模型上大幅增加计算量。目前，AI实验室在训练计算量上仍停留在GPT-4水平，而OpenAI等公司正在积极筹备下一代模型的训练。

电力消耗与成本考量

一个10万GPU集群需要超过150MW的数据中心容量，一年的能耗约为1.59TWh，相当于15万个家庭一年的用电量。按$0.078/Kwh的单价计算，仅电力一项，集群每年的支出高达1.239亿美元。

大规模模型训练的算力提升

训练万亿参数的模型时，使用H100的集群峰值吞吐量可达198 FP8 ExaFLOP/s或99 FP16 ExaFLOP/s，理论峰值是2万张A100 GPU集群训练时最大FLOPS的31.5倍。

数据中心的电力问题

支持10万H100集群所需的功率大约是150MW，尽管单个GPU功率只有700W，但由于H100服务器内包含CPU、NI（网络接口卡）、PSU（电源供应单元）等部件，每个GPU额外消耗约575W。除了H100，集群还需要存储服务器、网络交换机、CPU节点、光模块等，这些设备额外消耗约10%的IT功率。