1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:华为创造AI算力新纪录:万卡集群训练98%可用度,秒级恢复、分钟诊断

正文:
大模型的落地能力依赖于性能的稳定输出,而这背后的核心是强大的算力集群。构建万卡级算力集群是全球公认的技术挑战,但在华为,昇腾万卡算力集群已实现近乎“永不罢工”的表现:训练可用度达98%,线性度超95%,故障后可秒级恢复、分钟级诊断。

为何需要如此高的稳定性?因为无论是导航分析路况,还是医院用AI辅助诊断癌症,这些应用都需要AI算力集群全天候运转。高训练可用度、高线性度和快速故障消除,相当于为AI引擎提供了强有力的保障。

华为是如何实现这一点的?关键在于三套“智能保险系统”。首先是全栈可观测能力,通过实时监控集群状态、告警管理、网络链路监控等,确保问题早发现、早解决。其次是“故障诊断组合拳”,包括全栈故障模式库、跨域故障诊断、计算节点故障诊断和网络故障诊断,大幅提升故障定位效率。最后是自愈系统,通过链路级重传、动态调整光模块等技术,让超节点具备极强的容错能力,光模块闪断概率大幅降低。

在线性度方面,华为研发了TACO、NSF、NB和AICT四项技术,使算力卡数量增加时,训练效率更接近线性提升。以Pangu Ultra 135B为例,4K卡集群相比256卡基线,线性度达96%。

在训练故障恢复上,华为采用“分层分级”方案,恢复时间可压缩至30秒到10分钟。而在推理阶段,通过实例间切换、实例内重启恢复和无损恢复三步策略,确保业务连续性。例如,TOKEN级重试技术能在10秒内完成HBM KV Cache故障恢复,将影响降低60倍。

总结来看,华为提出“3+3”双维度技术体系,涵盖故障感知诊断、管理及集群光链路容错等基础能力,以及线性度、训练快恢、推理快恢等业务支撑能力,使万卡集群训练可用度达98%,训推最快达秒级快恢,线性度超95%,故障诊断仅需分钟级。

原文链接
本文链接:https://kx.umi6.com/article/19981.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
国家管网“管网”大模型正式上线应用,基于华为算力底座和技术栈
2024-11-30 18:17:25
华为医疗卫生军团总裁张伟力:AI技术将提升医疗服务效率和优化资源配置
2025-05-13 15:59:06
消息称荣耀 YOYO 会在近期接入 DeepSeek
2025-02-07 21:06:46
24小时热文
更多
扫一扫体验小程序