Nvidiaは、GTC(GPU Technology Conference)でDGX SuperPodを発表し、これまでで最も強力なシステムを明らかにしました。この最新のシステムは、ハードウェアとソフトウェアの総合的な展開の一環として導入されています。
近年、DGXはNvidiaのサーバーおよびクラウドサービスの基盤となっています。新たに登場したDGX SuperPodは、次世代のAI加速用GPU「Blackwell」を搭載しています。これは、Hopper GPUの後継モデルとして発表され、トリリオンパラメータをサポートするよう設計されています。
DGX SuperPodとは?
DGX SuperPodは単一のサーバーではなく、複数のDGX GB200システムから成る強力な構成です。各システムは36個のNvidia GB200スーパーチップを搭載し、これに36個のNvidia Grace CPUと72個のNvidia Blackwell GPUが統合されています。全ては第5世代Nvidia NVLinkで接続されています。このスパコンプラットフォームは、8台以上のDGX GB200システムをスケールさせることができ、数万のGB200スーパーチップをNvidia Quantum InfiniBandでリンクします。
このシステムは、240テラバイトのメモリを誇り、大規模な言語モデル(LLM)のトレーニングや生成AIの推論を行うのに不可欠です。さらに、DGX SuperPodは驚異の11.5エクサフロップスのAIスーパコンピューティングパワーを提供します。
高度なネットワーキングと処理
DGX SuperPodの重要な特徴は、Nvidia Quantum-X800 InfiniBandネットワーキング技術によって実現された統合計算ファブリックです。この技術は、各GPUに最大1,800ギガバイト毎秒の帯域幅を提供します。システムにはNvidia BlueField-3データ処理ユニット(DPU)や第5世代Nvidia NVLinkも統合されています。
さらに、DGX SuperPodは第4世代のNvidiaスケーラブル階層集約および削減プロトコル(SHARP)技術を取り入れており、ネットワーク内で14.4テラフロップスの計算能力を発揮します。これは、前の世代に対して4倍の向上です。
Nvidia DGX CloudにおけるBlackwell
GB200ベースのDGXシステムは、NvidiaのDGX Cloudサービスを通じて近日中に利用可能になります。Amazon Web Services(AWS)、Google Cloud、Oracle Cloudなどの主要なプラットフォームでのアクセスが最初に可能です。
NvidiaのハイパースケールおよびHPC担当ヴァイスプレジデント、イアン・バック氏は、「DGX Cloudはクラウドパートナーと協力して、AI研究や顧客のニーズに最適なNvidia技術を提供するために設計されています」と述べています。また、新しいGB200アーキテクチャは、AWSと共同開発しているProject Ceibaスーパコンピュータの強化にも寄与し、世界最大のパブリッククラウドスーパコンピューティングプラットフォームを目指します。
バック氏は、次のように興奮した発表をしました。「Project Ceibaは進化を遂げ、現在はGrace Blackwellアーキテクチャにアップグレードされ、20,000 GPUsをサポートし、400エクサフロップス以上のAI処理を可能にします。」
これらの進展により、NvidiaはAI技術の最前線に立ち、DGX SuperPodはAI研究やアプリケーションに関与する産業にとって素晴らしいツールとなるでしょう。