MLCommons 最近公布了最新的 MLPerf 推論結果,展示了全新的生成式 AI 基準測試,以及 Nvidia 下一代 Blackwell GPU 處理器的首批驗證性能指標。作為一個多方利益相關者的中立組織,MLCommons 負責監管 AI 訓練和推論的 MLPerf 基準。這次的結果涵蓋了來自 22 家組織的 964 項性能提交,為快速演變的 AI 硬體和軟體環境提供了關鍵概覽。MLPerf 透過統一且可重複的 AI 推論性能測量,幫助企業決策者洞察 AI 部署的複雜性,平衡性能、效率與成本。
MLPerf Inference v4.1 的重要亮點
在 MLPerf Inference v4.1 中,一個顯著的更新是 Mixture of Experts (MoE) 基準的引入,它評估 Mixtral 8x7B 模型的性能。本次測試還展現了一系列新處理器與系統,包括 AMD 的 MI300x、Google 的 TPUv6e (Trillium)、Intel 的 Granite Rapids、Untether AI 的 SpeedAI 240 和 Nvidia 的 Blackwell B200 GPU。
MLCommons 的 MLPerf 創始人 David Kanter 表示對多樣化的提交感到興奮:“評估的系統範圍越廣,行業內的比較和洞察機會就越多。”
AI 推論的 MoE 基準
此次的重大進展是 MoE 基準,旨在應對大規模語言模型所帶來的挑戰。AMD 和 MLCommons 推論工作組主席 Miro Hodak 解釋說,MoE 方法並不是依賴單一的大型模型,而是由幾個較小且領域專屬的模型組成,這提高了部署的效率。
MoE 基準使用 Mixtral 8x7B 模型來評估硬體性能,該模型包含八個專家,每個專家擁有 70 億參數,並整合了三個關鍵任務:
- 基於 Open Orca 數據集的問答
- 使用 GSMK 數據集的數學推理
- 基於 MBXP 數據集的編碼任務
Hodak 強調,與傳統的單任務基準相比,MoE 框架不僅更好地利用模型的優勢,還促進了更高效的企業 AI 解決方案。
Nvidia 的 Blackwell GPU:前景可期的 AI 推論增強
MLPerf 測試過程為供應商提供了一個展示即將推出技術的平台,並有嚴謹的同行評審結果支持。其中備受期待的是 Nvidia 在三月宣佈的 Blackwell GPU。儘管用戶需數月才能訪問 Blackwell,MLPerf Inference 4.1 的結果已提供了對其能力的初步了解。
Nvidia 的 Dave Salvator 在近期簡報中表示:“這是首次公布 Blackwell 的測試數據,我們很高興分享這一信息。”基準專門強調了基於 MLPerf 最大的 LLM 工作負載 Llama 2 70B 的生成式 AI 工作性能。“與我們之前的世代相比,每個 GPU 的性能提升了 4 倍,”Salvator 指出。
除了新推出的 Blackwell GPU,Nvidia 還持續從現有硬體中發掘更多性能。MLPerf Inference 4.1 的結果顯示,Hopper GPU 自六個月前的基準測試以來提升了 27%,這完全是由於軟體的優化。
Salvator 解釋道:“這些增益僅來自軟體。我們使用的是相同的硬體,但持續的軟體優化使我們能夠達到更高的性能。”
隨著這些進展,MLCommons 最新的 MLPerf 推論結果為 AI 硬體的未來和在各種企業應用中的部署潛力提供了關鍵洞察。