機器學習和人工智慧訓練創新加速
機器學習(ML)和人工智慧(AI)訓練的進展迅速,尤其是在更複雜的生成式AI任務出現之後。今天,MLCommons揭示了MLPerf 4.0訓練基準,展示了創紀錄的性能水平。這一廠商中立的標準在業界廣受認可,來自17個組織的貢獻和超過205個結果使其更具權威性。此次發布是自2023年11月的3.1版本以來,MLPerf訓練的首次更新。
MLPerf 4.0基準涵蓋了重要的發展,包括利用Stable Diffusion的圖像生成和用於GPT-3的大型語言模型(LLM)訓練。值得注意的是,首次出現的LoRA基準專注於參數效率,對Llama 2 70B語言模型進行文件摘要的微調。
與上個周期相比,成果令人矚目。MLCommons創始人兼執行董事David Kanter在新聞發布會上表示:“與六個月前相比,一些基準的性能提升幾乎達到2倍,特別是Stable Diffusion。”他補充道:“這在短短半年內取得如此成績,真的很了不起。”
具體而言,Stable Diffusion訓練比2023年11月快1.8倍,而GPT-3訓練的速度提高達1.2倍。
AI訓練性能:超越硬體
儘管硬體在AI模型訓練中扮演重要角色,軟體和集群內的網絡連接同樣關鍵。Kanter觀察到:“AI訓練性能依賴於多種促進效率的因素。”他指出,任務的分配和多個處理器或加速器之間的通信至關重要。
廠商不僅善用優質矽晶片,還利用先進的算法和擴展方案來隨著時間推動性能提升。
Nvidia在Hopper架構中的領導地位
Nvidia在MLPerf 4.0基準中表現優異,在九個測試工作負載中的五個創下了新的性能紀錄。令人印象深刻的是,這些基準主要是使用與2023年6月相同的核心硬體平台所達成的。Nvidia的AI總監David Salvator強調了H100 Hopper架構的持續價值。他表示:“在Nvidia的歷史中,我們通常能在產品生命周期內實現2到2.5倍的性能提升,這得益於軟體創新。”
Nvidia採取了多種策略來提升MLPerf 4.0的性能,包括全栈優化、精細調整的FP8核心和優化的cuDNN FlashAttention。
MLPerf訓練基準對企業的重要性
MLPerf基準為組織提供了標準化的訓練性能指標,但其價值不僅限於數字。Salvator強調,在現有硬體上實現性能增強,證明了Nvidia能從已建立的架構中持續獲益。隨著企業計劃新的部署,尤其是本地部署,初始投資後持續改進的潛力至關重要。“關於性能的重要性,簡單的答案是,它為企業帶來投資回報,”他總結道。