Meta最近的研究报告显示,使用16,384块NVIDIA H100显卡训练40.5亿参数的LLaMA 3模型期间,经历了419次意外故障,持续54天,平均每三小时发生一次故障。这些故障中超过一半源于GPU及其高带宽内存(HBM3)。
由于任务规模庞大且高度同步,单个GPU的故障可能会扰乱整个训练过程,迫使系统重新启动。尽管环境挑战重重,Meta团队依然保持了90%以上的有效训练时间。在54天的预训练期间,他们记录了总共466次中断,其中包括47次计划内中断和419次意外中断。计划内中断主要是由于自动维护,而意外故障则主要由硬件问题引起。值得注意的是,GPU相关问题占意外中断的58.7%。
在419次意外故障中,148次(30.1%)源于各种GPU问题,其中包括NVLink故障,72次(17.2%)则是由于GPU的HBM3内存故障。在整个54天的期间内,仅出现了两次CPU故障。此外,41.3%的意外中断是由软件错误、网络电缆问题和网络适配器故障等因素造成的。
为了提高效率,Meta团队开发了多种工具和优化策略,包括减少任务启动和检查点的时间,使用PyTorch的NCCL分析器来诊断性能问题,以及识别表现不佳的GPU。团队还关注环境因素对GPU性能的影响,例如正午的温度波动和数据中心电网同时运行多个GPU时的压力。
随着AI模型参数的持续增长,所需的计算资源也在增加。例如,xAI计划集群中的10万块H100 GPU可能显著提高故障率,为未来的AI训练工作带来了更大的挑战。