1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10万卡集群:通往AGI的新门票

美国大模型公司的标配

10万卡集群正成为美国大模型公司的标配。拾象发布的AI时代的纳斯达克指数AGIX Index,重点关注AI行业的“硬件投入—基础设施建设—应用爆发”三个阶段,其中硬件和基础设施是AGIX Index的焦点领域。

AGI的硬件投入持续升温

新一轮10万卡集群竞赛凸显了AGI基础设施建设的热度。马斯克、OpenAI/Microsoft、Anthropic/AWS、Meta等大型AI公司都在加速建设10万卡集群,每个集群的服务器硬件投入超过40亿美元。然而,构建这样一个集群不仅涉及复杂的工程技术,还需要解决电力、并行计算、网络拓扑、可靠性等多方面的挑战。

数据中心的角色与挑战

数据中心是新一代计算单元,决定了芯片能否转化为算力,支持模型实现“跳变式跨越”。在AGI竞赛中,数据中心的重要性不亚于GPU。构建大型AI训练集群需要考虑诸多挑战,包括电力能源、并行计算、网络拓扑、可靠性等,涉及英伟达、博通、TSMC、MRVL、SK Hynix、VRT等头部公司的合作。

硬件公司的角色

本文聚焦于英伟达、博通为代表的硬件公司如何构建大型AI训练集群。随着GPT-4的发布,AI模型能力的跃升面临挑战,关键在于如何在单一模型上大幅增加计算量。目前,AI实验室在训练计算量上仍停留在GPT-4水平,而OpenAI等公司正在积极筹备下一代模型的训练。

电力消耗与成本考量

一个10万GPU集群需要超过150MW的数据中心容量,一年的能耗约为1.59TWh,相当于15万个家庭一年的用电量。按$0.078/Kwh的单价计算,仅电力一项,集群每年的支出高达1.239亿美元。

大规模模型训练的算力提升

训练万亿参数的模型时,使用H100的集群峰值吞吐量可达198 FP8 ExaFLOP/s或99 FP16 ExaFLOP/s,理论峰值是2万张A100 GPU集群训练时最大FLOPS的31.5倍。

数据中心的电力问题

支持10万H100集群所需的功率大约是150MW,尽管单个GPU功率只有700W,但由于H100服务器内包含CPU、NI(网络接口卡)、PSU(电源供应单元)等部件,每个GPU额外消耗约575W。除了H100,集群还需要存储服务器、网络交换机、CPU节点、光模块等,这些设备额外消耗约10%的IT功率。

网络设计与优化

10万GPU集群需要通过光纤收发器联网,传输距离的增加导致成本上升。多模光纤和单模光纤在成本、传输距离和性能上有显著差异,园区级别的800G相干光收发器成本高昂。大型集群通常需要增加交换机,以降低网络成本和提高性能。

并行计算方式

万亿参数训练中使用的并行方式包括数据并行、张量并行和流水线并行。数据并行最简单,但需要足够的内存;张量并行通过跨设备交换减少内存需求;流水线并行进一步减少内存负担。结合这三种方式形成3D并行,以最大化模型浮点运算利用率(MFU)。

超级AI算力集群的网络设计

AI算力集群的网络设计围绕数据并行展开,考虑成本、性能和可靠性。拓扑结构选择考虑了成本和带宽需求,采用带宽过度订阅的策略来平衡网络复杂性和成本。InfiniBand和以太网的混合架构是常见选择,以满足不同并行计算需求。

网络交换机技术对比

Spectrum-X NVIDIA、Broadcom Tomahawk 5等网络交换机在性能、成本和可靠性方面各有优势。Spectrum-X提供一级NCCL支持,而Tomahawk 5则需要更多工程优化以实现类似性能。

CAPEX成本计算

构建10万卡集群的总投资约为40亿美元,不同网络选择的成本差异显著。基于Broadcom Tomahawk 5的方案被认为是最具成本效益的,提供了高性价比。

机架布局和平面图优化

优化机架布局是提高数据中心效率的关键,通过铜缆和多模光纤的高效使用来降低成本。采用Rail Optimized设计的平面图示例展示了如何优化光纤使用,以减少成本和提高效率。

结论

10万卡集群已成为推动AGI发展的重要基础设施。硬件投入、网络设计、成本控制和可靠性优化等多方面考虑,使得这一目标成为可能。随着技术进步和成本优化,这一领域有望迎来更多创新和突破。

原文链接
本文链接:https://kx.umi6.com/article/3783.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
微软 CEO 纳德拉:我更关注 AI 为现实世界带来的实际影响,而非单纯追求 AGI
2025-05-29 19:39:50
冲破 AGI 迷雾,蚂蚁看到了一个新路标
2025-09-29 11:08:37
OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作
2025-10-14 11:16:47
对话Kimi付强:别把模型当宠物圈养,追逐AGI就要让模型与人类共同演化
2025-10-04 10:57:38
小扎「超级智能」小组来了一位大佬
2025-06-12 13:33:28
AGI 这个词“过时”了?硅谷大佬开始重金押注“超级智能”
2025-07-06 20:17:59
阶跃星辰走“窄门”
2025-06-12 22:41:52
OpenAI的“独立战争”
2025-07-04 19:48:46
刚刚,OpenAI 发布ChatGPT 版Manus,奥特曼:感受AGI 时刻
2025-07-18 05:34:23
Anthropic CEO 阿莫代伊:AI 模型出现“幻觉”的频率可能比人类还低
2025-05-24 00:33:44
关税带来不确定性,软银、OpenAI 千亿美元“AI 基建”项目被曝陷入停滞
2025-05-12 19:38:58
AI基建架构迎转折点?芯片巨头抛重磅新品 可配备CPO选项
2025-06-04 17:36:37
OpenAI首席科学家访谈被紧急制止!有些名字现在不让说了……
2025-08-06 17:35:32
24小时热文
更多
扫一扫体验小程序