Metaの最近の研究報告によると、16,384台のNVIDIA H100グラフィックスカードで構成されたクラスターは、40.5億パラメータのLLaMA 3モデルをトレーニングする中で、54日間で419件の予期しない故障を経験しました。これは、約3時間ごとに1回の故障が発生する計算になります。これらの故障の過半数がGPUおよびその高帯域幅メモリ(HBM3)に起因しています。
大規模かつ高い同期性を持つタスクでは、単一のGPU故障が全体のトレーニングプロセスを妨げ、再起動が必要になります。それでも、Metaチームは90%以上の効果的なトレーニング時間を維持しました。54日間の事前トレーニング期間中、計466件の中断が記録され、その内訳は47件の計画的な中断と419件の予期しない中断でした。計画的な中断の主な原因は自動メンテナンスであり、予期しない故障の大半はハードウェアの問題によるものでした。特に、GPU関連の問題はこれらの予期しない中断の58.7%を占めています。
419件の予期しない故障のうち、148件(30.1%)はさまざまなGPUの問題、特にNVLinkの故障に関連しており、72件(17.2%)はGPUのHBM3メモリの故障によるものでした。印象的なことに、54日間の期間中にCPUの故障はわずか2件でした。さらに、予期しない中断の41.3%はソフトウェアのエラー、ネットワークケーブルの問題、およびネットワークアダプターの障害に起因しています。
Metaチームは効率を向上させるために多くのツールと最適化戦略を開発しました。これには、タスクの起動時間やチェックポイント時間の短縮、PyTorchのNCCLプロファイラーを利用してのパフォーマンス問題の診断、そして性能が不十分なGPUの特定が含まれます。チームはまた、GPUの性能に影響を与える環境要因(特に昼間の温度変動やデータセンターの電源グリッドにおける多数のGPUを同時に運用する際のストレス)にも注目しています。
AIモデルのパラメータが増加し続ける中、必要な計算資源も同様に増加しています。例えば、xAIによる計画中の10万台のH100 GPUのクラスターは、故障率を著しく増加させ、今後のAIトレーニングにさらなる課題をもたらす可能性があります。