1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

10万卡集群:通往AGI的新门票

美国大模型公司的标配

10万卡集群正成为美国大模型公司的标配。拾象发布的AI时代的纳斯达克指数AGIX Index,重点关注AI行业的“硬件投入—基础设施建设—应用爆发”三个阶段,其中硬件和基础设施是AGIX Index的焦点领域。

AGI的硬件投入持续升温

新一轮10万卡集群竞赛凸显了AGI基础设施建设的热度。马斯克、OpenAI/Microsoft、Anthropic/AWS、Meta等大型AI公司都在加速建设10万卡集群,每个集群的服务器硬件投入超过40亿美元。然而,构建这样一个集群不仅涉及复杂的工程技术,还需要解决电力、并行计算、网络拓扑、可靠性等多方面的挑战。

数据中心的角色与挑战

数据中心是新一代计算单元,决定了芯片能否转化为算力,支持模型实现“跳变式跨越”。在AGI竞赛中,数据中心的重要性不亚于GPU。构建大型AI训练集群需要考虑诸多挑战,包括电力能源、并行计算、网络拓扑、可靠性等,涉及英伟达、博通、TSMC、MRVL、SK Hynix、VRT等头部公司的合作。

硬件公司的角色

本文聚焦于英伟达、博通为代表的硬件公司如何构建大型AI训练集群。随着GPT-4的发布,AI模型能力的跃升面临挑战,关键在于如何在单一模型上大幅增加计算量。目前,AI实验室在训练计算量上仍停留在GPT-4水平,而OpenAI等公司正在积极筹备下一代模型的训练。

电力消耗与成本考量

一个10万GPU集群需要超过150MW的数据中心容量,一年的能耗约为1.59TWh,相当于15万个家庭一年的用电量。按$0.078/Kwh的单价计算,仅电力一项,集群每年的支出高达1.239亿美元。

大规模模型训练的算力提升

训练万亿参数的模型时,使用H100的集群峰值吞吐量可达198 FP8 ExaFLOP/s或99 FP16 ExaFLOP/s,理论峰值是2万张A100 GPU集群训练时最大FLOPS的31.5倍。

数据中心的电力问题

支持10万H100集群所需的功率大约是150MW,尽管单个GPU功率只有700W,但由于H100服务器内包含CPU、NI(网络接口卡)、PSU(电源供应单元)等部件,每个GPU额外消耗约575W。除了H100,集群还需要存储服务器、网络交换机、CPU节点、光模块等,这些设备额外消耗约10%的IT功率。

网络设计与优化

10万GPU集群需要通过光纤收发器联网,传输距离的增加导致成本上升。多模光纤和单模光纤在成本、传输距离和性能上有显著差异,园区级别的800G相干光收发器成本高昂。大型集群通常需要增加交换机,以降低网络成本和提高性能。

并行计算方式

万亿参数训练中使用的并行方式包括数据并行、张量并行和流水线并行。数据并行最简单,但需要足够的内存;张量并行通过跨设备交换减少内存需求;流水线并行进一步减少内存负担。结合这三种方式形成3D并行,以最大化模型浮点运算利用率(MFU)。

超级AI算力集群的网络设计

AI算力集群的网络设计围绕数据并行展开,考虑成本、性能和可靠性。拓扑结构选择考虑了成本和带宽需求,采用带宽过度订阅的策略来平衡网络复杂性和成本。InfiniBand和以太网的混合架构是常见选择,以满足不同并行计算需求。

网络交换机技术对比

Spectrum-X NVIDIA、Broadcom Tomahawk 5等网络交换机在性能、成本和可靠性方面各有优势。Spectrum-X提供一级NCCL支持,而Tomahawk 5则需要更多工程优化以实现类似性能。

CAPEX成本计算

构建10万卡集群的总投资约为40亿美元,不同网络选择的成本差异显著。基于Broadcom Tomahawk 5的方案被认为是最具成本效益的,提供了高性价比。

机架布局和平面图优化

优化机架布局是提高数据中心效率的关键,通过铜缆和多模光纤的高效使用来降低成本。采用Rail Optimized设计的平面图示例展示了如何优化光纤使用,以减少成本和提高效率。

结论

10万卡集群已成为推动AGI发展的重要基础设施。硬件投入、网络设计、成本控制和可靠性优化等多方面考虑,使得这一目标成为可能。随着技术进步和成本优化,这一领域有望迎来更多创新和突破。

原文链接
本文链接:https://kx.umi6.com/article/3783.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 奥尔特曼:希望通用人工智能未来能促进生育率增长
2025-08-18 07:42:41
“王者归来”之后 谷歌再下重注:世界模型将迎来“ChatGPT时刻”
2025-11-22 10:13:11
当姚顺雨的巨脸降临中国AGI
2026-01-13 11:28:22
OpenAI首席科学家访谈被紧急制止!有些名字现在不让说了……
2025-08-06 17:35:32
谷歌招聘“高级 AI 经济学家”,旨在了解 AGI 将如何影响我们的钱包
2025-11-06 18:08:13
NVIDIA再快也不行!科学家示警AGI阻碍在算力:已接近物理极限
2025-12-15 15:46:39
玩AI太费钱 xAI一年烧掉540多亿元:马斯克仍将豪赌未来
2026-01-12 21:57:17
奥特曼爆冷改口:AGI没用?MIT预测2028年降临,50%概率
2025-08-15 15:17:00
AIME’25满分炸场!Qwen一波七连发,全家桶大更新
2025-09-24 15:41:51
OpenAI奥特曼:能被ChatGPT消灭的工作不是真正的工作
2025-10-14 11:16:47
OpenAl为何“情迷”变现
2025-10-19 12:48:56
火线解析MiniMax招股书!全球领先大模型成本只有OpenAI 1%,果然拳怕少壮
2025-12-22 00:10:24
Hinton突然对AGI乐观了!“Ilya让他看到了什么吧…”
2025-09-04 15:01:08
24小时热文
更多
扫一扫体验小程序