Nvidia 在 AI 加速器領域並非孤軍作戰,Intel 透過其 Gaudi 2 技術取得了顯著進展,根據 Databricks 的最新研究報告顯示。該研究揭示,Intel Gaudi 2 在大型語言模型(LLM)推理方面與 Nvidia 領先的 AI 加速器競爭激烈,Gaudi 2 在解碼延遲上與 Nvidia H100 系統相當,並超越了 Nvidia A100 的性能。此外,Gaudi 2 的記憶體帶寬利用率也高於 H100 和 A100。
儘管 Nvidia 的高端加速器在訓練性能上仍表現更佳,Databricks 指出,Gaudi 2 在單節點 LLM 訓練性能上名列第二,僅次於 Nvidia H100,每顆晶片提供超過 260 TFLOPS 的運算能力。特別是根據公有雲定價,Gaudi 2 在訓練和推理上的性價比優於 A100 和 H100。
Intel 也透過 MLcommons MLPerf 基準測試分享 Gaudi 2 的測試結果,進一步透過第三方數據驗證該技術的性能。Databricks 的首席 NLP 架構師 Abhinav Venigalla 表示:“Gaudi 2 的效率讓我們印象深刻,特別是在 LLM 推理方面。”他提到,團隊無法充分探索 Gaudi 2 在最新軟體版本中 FP8 支援所帶來的性能優勢。
Intel 的見解與 Databricks 的發現一致。Habana Labs(Intel 的子公司)首席營運官 Eitan Medina 表示,該報告證實了 Intel 內部的性能指標和客戶反饋。他強調:“驗證我們的說法至關重要,尤其是許多人認為 Gaudi 是 Intel 最佳保密的技術。”這類報告的發表有助於提高能見度。
自 2019 年以 20 億美元收購 Habana Labs 和其 Gaudi 技術以來,Intel 一直在不斷提升其能力。Intel 和 Nvidia 積極參與定期更新的 MLcommons MLPerf 基準測試。最新的 MLPerf 3.1 基準於 11 月發布,展示了兩家公司在 LLM 訓練速度上的新記錄,同時在 9 月的推理基準中表現也相當競爭。
雖然像 MLPerf 這樣的基準測試提供了有價值的見解,Medina 指出許多客戶會優先進行測試,以確保與特定模型和用例的兼容性。他表示:“軟體堆疊的成熟度至關重要,因為客戶有時對供應商為特定指標進行過度優化的基準測試持懷疑態度。”他認為 MLPerf 結果是公司在進一步測試之前的一個有用的初步篩選。
展望未來,Intel 计划在 2024 年推出 Gaudi 3 AI 加速器。Gaudi 3 基於 5 奈米製程,預計將提供比 Gaudi 2 高四倍的運算能力和雙倍的網路帶寬。Medina 斷言:“Gaudi 3 代表了性能的重大躍進,提升了每美元和每瓦的性能。”
除了 Gaudi 3,Intel 還計劃開發未來幾代將整合高效能運算(HPC)和 AI 加速器技術。該公司認識到其 CPU 技術在 AI 推理工作負載中的重要性,近期推出了具備 AI 加速的第五代 Xeon 處理器。Medina 結尾強調:“CPU 在推理和微調任務中仍扮演著關鍵角色,特別是與 Gaudi 加速器結合進行高密度 AI 計算工作負載時,提倡提供多元化的解決方案。”