华为创造AI算力新纪录：万卡集群训练98%可用度，秒级恢复、分钟诊断

2025-06-10 13:48:32

灵感Phoenix

发布在

科普

阅读：166

标题：华为创造AI算力新纪录：万卡集群训练98%可用度，秒级恢复、分钟诊断

正文：
大模型的落地能力依赖于性能的稳定输出，而这背后的核心是强大的算力集群。构建万卡级算力集群是全球公认的技术挑战，但在华为，昇腾万卡算力集群已实现近乎“永不罢工”的表现：训练可用度达98%，线性度超95%，故障后可秒级恢复、分钟级诊断。

为何需要如此高的稳定性？因为无论是导航分析路况，还是医院用AI辅助诊断癌症，这些应用都需要AI算力集群全天候运转。高训练可用度、高线性度和快速故障消除，相当于为AI引擎提供了强有力的保障。

华为是如何实现这一点的？关键在于三套“智能保险系统”。首先是全栈可观测能力，通过实时监控集群状态、告警管理、网络链路监控等，确保问题早发现、早解决。其次是“故障诊断组合拳”，包括全栈故障模式库、跨域故障诊断、计算节点故障诊断和网络故障诊断，大幅提升故障定位效率。最后是自愈系统，通过链路级重传、动态调整光模块等技术，让超节点具备极强的容错能力，光模块闪断概率大幅降低。

在线性度方面，华为研发了TACO、NSF、NB和AICT四项技术，使算力卡数量增加时，训练效率更接近线性提升。以Pangu Ultra 135B为例，4K卡集群相比256卡基线，线性度达96%。

在训练故障恢复上，华为采用“分层分级”方案，恢复时间可压缩至30秒到10分钟。而在推理阶段，通过实例间切换、实例内重启恢复和无损恢复三步策略，确保业务连续性。例如，TOKEN级重试技术能在10秒内完成HBM KV Cache故障恢复，将影响降低60倍。

总结来看，华为提出“3+3”双维度技术体系，涵盖故障感知诊断、管理及集群光链路容错等基础能力，以及线性度、训练快恢、推理快恢等业务支撑能力，使万卡集群训练可用度达98%，训推最快达秒级快恢，线性度超95%，故障诊断仅需分钟级。

原文链接

本文链接：https://kx.umi6.com/article/19981.html

转载请注明文章出处

AI算力