Nvidia 在 GTC 大會上推出了最新的 DGX SuperPod 系統,這是該公司迄今為止最強大的系統。這一尖端系統是全面硬體和軟體推出的一部分。近年來,DGX 系列已成為 Nvidia 伺服器和雲端服務的重要基石。新型的 DGX SuperPod 配備了名為 Blackwell 的下一代 GPU,這是 Hopper GPU 的繼任者,專為支援 trillion 參數的 AI 模型而設計。
什麼是 DGX SuperPod?
DGX SuperPod 不僅僅是一台單一的伺服器,而是一個由多個 DGX GB200 系統組成的強大配置。每個系統含有 36 顆 Nvidia GB200 Superchip,整合了 36 顆 Nvidia Grace CPU 和 72 顆 Nvidia Blackwell GPU,所有元件透過第五代 Nvidia NVLink 相連。這一超級計算平台可擴展至八個或更多 DGX GB200 系統,透過 Nvidia Quantum InfiniBand 連結數以萬計的 GB200 Superchip。系統的內存容量高達 240 TB,對於訓練大規模語言模型(LLM)及大規模生成 AI 推理至關重要。此外,DGX SuperPod 提供驚人的 11.5 exaflops AI 超級計算能力。
先進的網絡和處理
DGX SuperPod 的一個關鍵特點是其統一計算結構,這得益於新推出的 Nvidia Quantum-X800 InfiniBand 網絡技術,為每個 GPU 提供高達 1,800GB 每秒的帶寬。系統還整合了 Nvidia BlueField-3 數據處理單元(DPU)以及第五代 Nvidia NVLink。此外,DGX SuperPod 採用第四代 Nvidia 可擴展層次聚合與縮減協定(SHARP)技術,提供 14.4 teraflops 的網絡內計算能力,是其前身的四倍。
Nvidia DGX Cloud 中的 Blackwell
基於 GB200 的 DGX 系統將通過 Nvidia 的 DGX Cloud 服務提供,最初將在亞馬遜雲服務(AWS)、谷歌雲和甲骨文雲等主要平台上獲得訪問。Nvidia 超大規模和 HPC 副總裁 Ian Buck 表示:「DGX Cloud 是與我們的雲夥伴合作設計的,旨在為 AI 研究及客戶提供最佳的 Nvidia 技術。」新的 GB200 架構也將提升 Nvidia 正在與 AWS 開發的 Project Ceiba 超級計算機,目標是創建全球最大的公共雲超級計算平台。Buck 還宣布了一項激動人心的進展:「Project Ceiba 已經升級,現在支援 20,000 顆 GPU,能夠實現超過 400 exaflops 的 AI 計算能力。」
這些進步使 Nvidia 站在 AI 技術的最前沿,讓 DGX SuperPod 成為 AI 研究與應用行業的一個卓越工具。