Llama3.1训练平均3小时故障一次，H100万卡集群好脆弱，气温波动都会影响吞吐量

2024-07-29 15:55:44

AI奇点纪元

发布在

快讯

阅读：414

摘要：近期，Meta发布的关于Llama 3.1预训练的论文揭示了一个令人关注的事实：在为期54天的预训练期间，Llama 3.1遇到了频繁的故障问题，平均每3小时故障一次，总共有466次中断，其中419次为意外中断，且大部分归咎于硬件问题，尤其是GPU，占总数的58.7%。尽管如此，Llama 3.1团队仍设法保持了超过90%的有效训练时间。为解决这一问题，Llama 3.1团队采取了多项措施，包括减少任务启动和checkpointing时间，以及开发了新的工具以快速诊断和解决问题。他们特别利用了PyTorch的内置NCCL flight recorder功能，该功能可将集体元数据和堆栈跟踪记录到循环缓冲区，有助于快速诊断大规模卡顿和性能问题，尤其是与NCCLX相关的问题。值得注意的是，环境因素对训练性能也有显著影响。研究人员发现，一天中的不同时间，吞吐量会有1-2%的变化，这与温度波动有关，特别是在午间温度较高时，对GPU的动态电压和频率调节产生了影响。此外，大规模训练过程中，数万个GPU的功耗变化会对数据中心的电网造成巨大压力。面对这一挑战，Meta已投资大量资源构建AI研究超级集群，旨在支持更大规模的模型训练。然而，构建和维护如此大规模的AI集群并非易事，涉及电力、网络设计、并行处理和可靠性等多个方面的复杂考量。随着Llama系列模型的不断扩展，如何有效管理故障和优化性能成为持续关注的重点。

原文链接

本文链接：https://kx.umi6.com/article/4148.html

转载请注明文章出处

GPU故障