2023年,人工智慧模型的訓練速度顯著提升,這一點在最新的MLPerf Training 3.1基準中得到了驗證。生成式AI領域的創新速度驚人,快速的模型訓練成為此進步的關鍵因素。MLCommons的MLPerf基準追蹤並量化這一訓練效率,MLCommons是一個致力於改善機器學習(ML)基準、數據集及最佳實踐以促進AI發展的開放工程聯盟。
MLPerf Training 3.1基準包括19家供應商的提交,生成了超過200個性能結果。本次測試包含針對大型語言模型(LLM)訓練的基準,例如GPT-3,並引入了開源Stable Diffusion文本到圖像生成模型的新基準。
MLCommons執行董事David Kanter在最近的新聞發布會上表示:“我們看到超過200個性能結果的實質改進,速度提升介於50%至近3倍。”
LLM訓練超越摩爾定律
MLPerf Training 3.1基準的一個突出特點是LLM訓練的顯著性能增長。自從6月首次納入LLM訓練數據以來,MLPerf 3.1基準顯示LLM訓練性能幾乎提升了3倍。Kanter指出:“比較6月首輪的最快LLM訓練基準與最新結果,我們實現了約2.8倍的速度提升。我無法預測未來的輪次,但這一改進令人印象深刻,顯示出驚人的能力。”
Kanter認為,這一近期的AI訓練性能提升超過摩爾定律的預測,該法則預期每幾年計算性能會翻倍。他表示,AI行業正在以超出這些預測的速度擴展硬體架構和軟體。“MLPerf作為業界進步的晴雨表,”Kanter補充道。
行業領袖的顯著進展
在MLPerf Training 3.1基準中,Intel、Nvidia和Google在LLM訓練結果上取得了顯著進展。Intel報告稱,其Habana Gaudi 2加速器相比6月的結果提升了103%的訓練速度,使用了8位浮點數(FP8)數據類型等技術。Intel高級研究員Itay Hubara表示:“我們在相同的軟體堆疊下啟用了FP8,改進了現有硬體上的結果。我們實現了上一次提交中的承諾。”
Google的Cloud TPU v5e於8月29日推出,也展示了訓練增益,類似地利用FP8以優化性能。Google雲加速器產品經理Vaibhav Singh討論了通過Cloud TPU多切片技術獲得的擴展能力。“Cloud TPU多切片在數據中心網路中有效擴展,”Singh解釋道。“利用這項技術,我們實現了高達1,024個節點的卓越擴展性能,使用了4,096個TPU v5e晶片。”
Nvidia的EOS超級計算機驅動LLM訓練
Nvidia則利用其EOS超級計算機最大化了LLM訓練的效率,該計算機自2022年以來開始討論。結果顯示,GPT-3模型的訓練速度相比6月基準提升了2.8倍。Nvidia加速計算產品總監Dave Salvator強調,EOS配備了10,752個GPU,通過Nvidia Quantum-2 InfiniBand互連,操作速度達到400吉比特每秒,並具備860TB的HBM3內存。“我們看到的速度指標非比尋常,”Salvator評論道。“在AI計算方面,我們超過了40 exaflops,這是了不起的成就。”
總的來說,MLPerf Training 3.1基準強調了AI訓練的快速進展,標誌著人工智慧發展的一個關鍵時刻。