Metaは最近、4050億パラメータを持つLlama 3モデルのトレーニング時に発生した重大な課題についての包括的な研究報告を発表しました。このトレーニングは、16,384台のNvidia H100 GPUを用いたクラスターで行われ、54日間にわたり実施されました。その間、システムは419回の予期しない故障を経験し、平均で約3時間ごとに1回の故障が発生しました。特に、これらの故障の半数以上がGPUおよびその高帯域幅メモリ(HBM3)に関連していました。
MetaのLlama 3.1オープンソースモデルのリリースは多くの関心を呼んでおり、ユーザーはトレーニングデータの出所、合成データの割合、エキスパートの混合(MoE)アーキテクチャの不在、トレーニング後の人間からのフィードバックによる強化学習(RLHF)プロセス、モデルの評価方法など多岐にわたる点に興味を持っています。特に、今後のLlamaモデル、特にLlama 4やプロキシテクノロジーの進展への期待が高まっています。
LLMのパラメータの規模を決定する際、Metaはスケーリング法則、トレーニング期間、ハードウェアの制約など複数の要因を考慮しました。その研究では、スケーリング法則と合計トレーニングトークンの制約内で推論効率を最適化するバランスの取れたアプローチが特定されました。4050億のパラメータを持つLlama 3.1は、GPT-4と同等の強力なコンペティターとしての地位を確立しています。最終目標はまだ達成されていませんが、進展は見られ、将来的なモデルの拡張が期待されています。
Chinchilla論文は、トレーニングデータトークンの総数の重要性を強調し、限られた計算能力の制約下でモデルパラメータとトレーニングトークンの最適な比率が重要であると主張しています。Metaは、推論効率を向上させるために、トレーニングトークンの数と期間を増やすことを選択し、オープンソースコミュニティでの広範な採用に向けたパフォーマンスの向上を実現しています。
Llama 2とのアーキテクチャの類似性にもかかわらず、Llama 3はデータの規模と質において大きな改善を遂げており、データセットは2兆トークンから15兆トークンに増加しています。現在のモデル開発のトレンドは、トレーニング後の強化を通じてベンチマークスコアを向上させることに焦点を当てていますが、モデル評価は依然として未解決の研究課題です。過剰適合のリスクは懸念材料であり、類似能力間でのパフォーマンス向上の移転を妨げる可能性があります。Llama 4モデルのトレーニングは6月に開始され、プロキシテクノロジーに注力する可能性があります。
Llama 3のトレーニング中に頻発した故障は、その大規模なスケールと高い同期のために発生しました。単一のGPUの故障が全体のトレーニングプロセスを妨げる可能性があります。419回の予期しない故障のうち、約58.7%はGPUに関連しており、さまざまなNVLinkの問題が含まれます。NvidiaのH100 GPUが重負荷の下で動作しているため、手動介入が必要だったのは3件だけで、残りの問題は自動的に解消されました。
Llama 3チームは、効果的なトレーニング時間を最大化するために自動クラスタメンテナンスを導入し、トレーニング時間の90%以上を効率的に利用できるようにしました。Metaは、タスクの開始とチェックポイント時間を最小限に抑える、PyTorchの内蔵NCCLフライトレコーダーを利用する、遅延しているGPUを特定するなど、いくつかのツールや最適化戦略を開発しました。NCCLXは、特にNVLinkやRoCE関連の問題における故障検出と特定において重要な役割を果たしました。
トレーニング中、数千台のGPUからの電力消費の変動は、データセンターの電力要件に深刻な課題をもたらしました。Metaは、Llama 3や今後の大規模モデルを適切な電力供給でサポートできるデータセンターを確保する必要があります。環境要因もトレーニングパフォーマンスに影響を与えました。たとえば、Llama 3のトレーニング中の温度変動は、GPUの動的電圧および周波数調整を引き起こし、スループットにわずかな変動をもたらしました。
16,384台のH100 GPUにおける1日あたり平均7.76回の故障から判断すると、10万台のH100 GPUを搭載したxAIメンフィススーパーコンピュータでは、さらに高い故障率が予測されます。AIモデルのパラメータ数が増加するにつれて、計算資源の需要も相応に拡大しています。これらの課題にもかかわらず、Metaは故障の管理能力と大規模AIトレーニングにおける効率向上を実証し、将来のさらなる大規模モデルのトレーニングに向けた強固な基盤を築いています。