标题:华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断
正文:
大模型的落地能力依赖于性能的稳定输出,而这背后的核心是强大的算力集群。构建万卡级算力集群是全球公认的技术挑战,但在华为,昇腾万卡算力集群已实现近乎“永不罢工”的表现:训练可用度达98%,线性度超95%,故障后可秒级恢复、分钟级诊断。
为何需要如此高的稳定性?因为无论是导航分析路况,还是医院用AI辅助诊断癌症,这些应用都需要AI算力集群全天候运转。高训练可用度、高线性度和快速故障消除,相当于为AI引擎提供了强有力的保障。
华为是如何实现这一点的?关键在于三套“智能保险系统”。首先是全栈可观测能力,通过实时监控集群状态、告警管理、网络链路监控等,确保问题早发现、早解决。其次是“故障诊断组合拳”,包括全栈故障模式库、跨域故障诊断、计算节点故障诊断和网络故障诊断,大幅提升故障定位效率。最后是自愈系统,通过链路级重传、动态调整光模块等技术,让超节点具备极强的容错能力,光模块闪断概率大幅降低。
在线性度方面,华为研发了TACO、NSF、NB和AICT四项技术,使算力卡数量增加时,训练效率更接近线性提升。以Pangu Ultra 135B为例,4K卡集群相比256卡基线,线性度达96%。
在训练故障恢复上,华为采用“分层分级”方案,恢复时间可压缩至30秒到10分钟。而在推理阶段,通过实例间切换、实例内重启恢复和无损恢复三步策略,确保业务连续性。例如,TOKEN级重试技术能在10秒内完成HBM KV Cache故障恢复,将影响降低60倍。
总结来看,华为提出“3+3”双维度技术体系,涵盖故障感知诊断、管理及集群光链路容错等基础能力,以及线性度、训练快恢、推理快恢等业务支撑能力,使万卡集群训练可用度达98%,训推最快达秒级快恢,线性度超95%,故障诊断仅需分钟级。
.png)

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20