Nvidia 和 Intel 在 MLPerf 3.1 基準測試中創下新紀錄，展示了其大型語言模型 (LLM) 訓練速度。

Home AI新聞 Nvidia 和 Intel 在 MLPerf 3.1 基準測試中創下新紀錄，展示了其大型語言模型 (LLM) 訓練速度。

Updated on 十一月 8 2023

2023年，人工智慧模型的訓練速度顯著提升，這一點在最新的MLPerf Training 3.1基準中得到了驗證。生成式AI領域的創新速度驚人，快速的模型訓練成為此進步的關鍵因素。MLCommons的MLPerf基準追蹤並量化這一訓練效率，MLCommons是一個致力於改善機器學習（ML）基準、數據集及最佳實踐以促進AI發展的開放工程聯盟。

MLPerf Training 3.1基準包括19家供應商的提交，生成了超過200個性能結果。本次測試包含針對大型語言模型（LLM）訓練的基準，例如GPT-3，並引入了開源Stable Diffusion文本到圖像生成模型的新基準。

MLCommons執行董事David Kanter在最近的新聞發布會上表示：“我們看到超過200個性能結果的實質改進，速度提升介於50%至近3倍。”

LLM訓練超越摩爾定律

MLPerf Training 3.1基準的一個突出特點是LLM訓練的顯著性能增長。自從6月首次納入LLM訓練數據以來，MLPerf 3.1基準顯示LLM訓練性能幾乎提升了3倍。Kanter指出：“比較6月首輪的最快LLM訓練基準與最新結果，我們實現了約2.8倍的速度提升。我無法預測未來的輪次，但這一改進令人印象深刻，顯示出驚人的能力。”

Kanter認為，這一近期的AI訓練性能提升超過摩爾定律的預測，該法則預期每幾年計算性能會翻倍。他表示，AI行業正在以超出這些預測的速度擴展硬體架構和軟體。“MLPerf作為業界進步的晴雨表，”Kanter補充道。

行業領袖的顯著進展

在MLPerf Training 3.1基準中，Intel、Nvidia和Google在LLM訓練結果上取得了顯著進展。Intel報告稱，其Habana Gaudi 2加速器相比6月的結果提升了103%的訓練速度，使用了8位浮點數（FP8）數據類型等技術。Intel高級研究員Itay Hubara表示：“我們在相同的軟體堆疊下啟用了FP8，改進了現有硬體上的結果。我們實現了上一次提交中的承諾。”

Google的Cloud TPU v5e於8月29日推出，也展示了訓練增益，類似地利用FP8以優化性能。Google雲加速器產品經理Vaibhav Singh討論了通過Cloud TPU多切片技術獲得的擴展能力。“Cloud TPU多切片在數據中心網路中有效擴展，”Singh解釋道。“利用這項技術，我們實現了高達1,024個節點的卓越擴展性能，使用了4,096個TPU v5e晶片。”

Nvidia的EOS超級計算機驅動LLM訓練

Nvidia則利用其EOS超級計算機最大化了LLM訓練的效率，該計算機自2022年以來開始討論。結果顯示，GPT-3模型的訓練速度相比6月基準提升了2.8倍。Nvidia加速計算產品總監Dave Salvator強調，EOS配備了10,752個GPU，通過Nvidia Quantum-2 InfiniBand互連，操作速度達到400吉比特每秒，並具備860TB的HBM3內存。“我們看到的速度指標非比尋常，”Salvator評論道。“在AI計算方面，我們超過了40 exaflops，這是了不起的成就。”

總的來說，MLPerf Training 3.1基準強調了AI訓練的快速進展，標誌著人工智慧發展的一個關鍵時刻。

Vanta報告：AI驅動的信任管理如何填補安全合規性缺口

了解OpenAI近期公告的意涵：對企業業務的影響