Meta最近發佈了一份全面的研究報告,詳述在訓練擁有4050億參數的Llama 3模型時所面臨的重大挑戰。這一訓練過程在由16,384個Nvidia H100 GPU組成的集群上進行,持續了54天,期間系統經歷了419次意外故障,平均每三小時發生一次。值得注意的是,這些故障中超過一半與GPU及其高帶寬內存(HBM3)相關。
Meta發布的Llama 3.1開源模型引起了廣泛關注,使用者對訓練數據來源、合成數據比例、缺乏專家混合(MoE)架構、後訓練及人類反饋強化學習(RLHF)過程、模型評估方法等各方面充滿好奇。人們對Llama模型的未來充滿期待,特別是即將推出的Llama 4以及代理技術的進展。
在確定大型語言模型(LLM)參數的規模上,Meta考慮了多個因素,如縮放法則、訓練時間和硬體限制。研究指出了一種平衡的方法,以在縮放法則和總訓練代幣的限制下優化推理效率。擁有4050億參數的Llama 3.1成為與GPT-4可媲美的有力競爭者。儘管最終目標尚未實現,但已經取得進展,未來模型有望進一步擴展。
Chinchilla論文強調了訓練數據代幣總數的重要性,聲明在有限的計算能力限制下,模型參數與訓練代幣的最佳比例至關重要。為了提升推理效率,Meta選擇增加訓練代幣的數量和訓練時間,從而促進了開源社區的廣泛應用。
儘管在架構上與Llama 2相似,Llama 3在數據規模和質量上有了顯著提升,數據集從2萬億增長至15萬億個代幣。目前模型開發的趨勢在於通過後訓練增強來改善基準分數,儘管模型評估仍然是一個未解決的研究挑戰。過度擬合的風險令人擔憂,可能會影響相似能力中性能提升的可轉移性。Llama 4模型的訓練已於六月份開始,重點可能在於代理技術。
Llama 3訓練過程中頻繁的故障與其龐大的規模和高度同步有關,單一GPU的故障可能會中斷整個訓練過程。在419次意外故障中,約58.7%與GPU有關,包括各種NVLink問題。考慮到Nvidia的H100 GPU在高 нагрузках下運行,僅有三次事件需要人工介入,而其餘問題均自動解決並不令人驚訝。
為了最大化有效訓練時間,Llama 3團隊實施了自動集群維護,確保超過90%的訓練時間得到有效利用。Meta開發了多種工具和優化策略,如最小化任務啟動和檢查點時間,使用PyTorch內建的NCCL記錄器,並識別性能下降的GPU。NCCLX在故障檢測和定位中發揮了關鍵作用,特別是針對NVLink和RoCE相關問題。
在訓練期間,數千個GPU電力消耗的波動給數據中心的電力需求帶來了重大挑戰。Meta必須確保其數據中心能夠支持Llama 3及未來更大型模型的充足電力供應。環境因素也影響了訓練性能;例如,在Llama 3訓練期間的溫度變化導致GPU的動態電壓和頻率調整,造成吞吐量輕微波動。
在16,384個H100 GPU中,每24小時的平均故障數為7.76,而配備10萬個H100 GPU的xAI Memphis超級計算機可能面臨更高的故障率。隨著AI模型參數數量不斷增加,對計算資源的需求也相應擴大。儘管面臨這些挑戰,Meta展示了其在大型AI訓練中管理故障和提高效率的強大能力,為未來更大規模模型的訓練奠定了堅實基礎。