1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10万卡集群:通往AGI的新门票

美国大模型公司的标配

10万卡集群正成为美国大模型公司的标配。拾象发布的AI时代的纳斯达克指数AGIX Index,重点关注AI行业的“硬件投入—基础设施建设—应用爆发”三个阶段,其中硬件和基础设施是AGIX Index的焦点领域。

AGI的硬件投入持续升温

新一轮10万卡集群竞赛凸显了AGI基础设施建设的热度。马斯克、OpenAI/Microsoft、Anthropic/AWS、Meta等大型AI公司都在加速建设10万卡集群,每个集群的服务器硬件投入超过40亿美元。然而,构建这样一个集群不仅涉及复杂的工程技术,还需要解决电力、并行计算、网络拓扑、可靠性等多方面的挑战。

数据中心的角色与挑战

数据中心是新一代计算单元,决定了芯片能否转化为算力,支持模型实现“跳变式跨越”。在AGI竞赛中,数据中心的重要性不亚于GPU。构建大型AI训练集群需要考虑诸多挑战,包括电力能源、并行计算、网络拓扑、可靠性等,涉及英伟达、博通、TSMC、MRVL、SK Hynix、VRT等头部公司的合作。

硬件公司的角色

本文聚焦于英伟达、博通为代表的硬件公司如何构建大型AI训练集群。随着GPT-4的发布,AI模型能力的跃升面临挑战,关键在于如何在单一模型上大幅增加计算量。目前,AI实验室在训练计算量上仍停留在GPT-4水平,而OpenAI等公司正在积极筹备下一代模型的训练。

电力消耗与成本考量

一个10万GPU集群需要超过150MW的数据中心容量,一年的能耗约为1.59TWh,相当于15万个家庭一年的用电量。按$0.078/Kwh的单价计算,仅电力一项,集群每年的支出高达1.239亿美元。

大规模模型训练的算力提升

训练万亿参数的模型时,使用H100的集群峰值吞吐量可达198 FP8 ExaFLOP/s或99 FP16 ExaFLOP/s,理论峰值是2万张A100 GPU集群训练时最大FLOPS的31.5倍。

数据中心的电力问题

支持10万H100集群所需的功率大约是150MW,尽管单个GPU功率只有700W,但由于H100服务器内包含CPU、NI(网络接口卡)、PSU(电源供应单元)等部件,每个GPU额外消耗约575W。除了H100,集群还需要存储服务器、网络交换机、CPU节点、光模块等,这些设备额外消耗约10%的IT功率。

网络设计与优化

10万GPU集群需要通过光纤收发器联网,传输距离的增加导致成本上升。多模光纤和单模光纤在成本、传输距离和性能上有显著差异,园区级别的800G相干光收发器成本高昂。大型集群通常需要增加交换机,以降低网络成本和提高性能。

并行计算方式

万亿参数训练中使用的并行方式包括数据并行、张量并行和流水线并行。数据并行最简单,但需要足够的内存;张量并行通过跨设备交换减少内存需求;流水线并行进一步减少内存负担。结合这三种方式形成3D并行,以最大化模型浮点运算利用率(MFU)。

超级AI算力集群的网络设计

AI算力集群的网络设计围绕数据并行展开,考虑成本、性能和可靠性。拓扑结构选择考虑了成本和带宽需求,采用带宽过度订阅的策略来平衡网络复杂性和成本。InfiniBand和以太网的混合架构是常见选择,以满足不同并行计算需求。

网络交换机技术对比

Spectrum-X NVIDIA、Broadcom Tomahawk 5等网络交换机在性能、成本和可靠性方面各有优势。Spectrum-X提供一级NCCL支持,而Tomahawk 5则需要更多工程优化以实现类似性能。

CAPEX成本计算

构建10万卡集群的总投资约为40亿美元,不同网络选择的成本差异显著。基于Broadcom Tomahawk 5的方案被认为是最具成本效益的,提供了高性价比。

机架布局和平面图优化

优化机架布局是提高数据中心效率的关键,通过铜缆和多模光纤的高效使用来降低成本。采用Rail Optimized设计的平面图示例展示了如何优化光纤使用,以减少成本和提高效率。

结论

10万卡集群已成为推动AGI发展的重要基础设施。硬件投入、网络设计、成本控制和可靠性优化等多方面考虑,使得这一目标成为可能。随着技术进步和成本优化,这一领域有望迎来更多创新和突破。

原文链接
本文链接:https://kx.umi6.com/article/3783.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
为什么未来不需要我们
2025-03-28 08:33:32
微软 CEO 纳德拉:我更关注 AI 为现实世界带来的实际影响,而非单纯追求 AGI
2025-05-29 19:39:50
DeepSeek 反思潮:AGI 既被重新审视,又被持续低估
2025-03-01 00:34:32
消息称 Meta 拆分 AI 部门为两大团队,分别聚焦消费级产品与 AGI 基础研究
2025-05-28 17:00:06
奥尔特曼发文:AI成本每年降10倍 OpenAI正全力布局AI智能体
2025-02-10 16:17:00
阶跃星辰姜大昕:正朝着实现AGI目标稳步,预计3月开源新模型
2025-02-22 14:36:10
OpenAI筹划万亿级AI基建,机构称AI基建资本开支处于爆发拐点,这些环节将深度受益
2025-08-16 16:28:44
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
2025-05-10 14:06:22
小扎「超级智能」小组来了一位大佬
2025-06-12 13:33:28
消息称微软与 OpenAI 正进行深入谈判:确保 AGI 时代技术合作
2025-07-29 21:35:30
Altman深夜发文:AI成本每年暴跌10倍,2035年人人都有超级大脑
2025-02-11 11:48:45
市场传言:GPT-5最早或于8月初发布
2025-07-25 02:15:22
OpenAI 董事会一致否决马斯克收购提议:要确保 AGI 造福全人类
2025-02-15 09:58:15
24小时热文
更多
扫一扫体验小程序