A Nvidia apresentou seus sistemas mais potentes até hoje com o lançamento do DGX SuperPod na conferência Nvidia GTC. Este sistema de ponta faz parte de um lançamento abrangente de hardware e software.
Nos últimos anos, o DGX se tornou um pilar das ofertas de servidores e nuvem da Nvidia. O novo DGX SuperPod é equipado com as GPUs de próxima geração da Nvidia para aceleração de IA, conhecidas como Blackwell, que são reveladas como sucessoras da GPU Hopper. Blackwell é projetada para suportar modelos de IA com um trilhão de parâmetros.
O que é o DGX SuperPod?
O DGX SuperPod não é apenas um servidor único; trata-se de uma configuração robusta de múltiplos sistemas DGX GB200. Cada sistema é composto por 36 Superchips Nvidia GB200, integrando 36 CPUs Nvidia Grace e 72 GPUs Nvidia Blackwell, todas conectadas via Nvidia NVLink de quinta geração. Esta plataforma de supercomputação pode escalar para incluir oito ou mais sistemas DGX GB200, interligando dezenas de milhares de Superchips GB200 por meio do Nvidia Quantum InfiniBand.
O sistema possui impressionantes 240 terabytes de memória, essenciais para o treinamento de grandes modelos de linguagem (LLMs) e para realizar inferência de IA generativa em larga escala. Além disso, o DGX SuperPod oferece impressionantes 11,5 exaflops de poder de supercomputação em IA.
Rede e Processamento Avançados
Uma característica chave do DGX SuperPod é sua malha de computação unificada, facilitada pela nova tecnologia de rede Nvidia Quantum-X800 InfiniBand, que oferece até 1.800 gigabytes por segundo de largura de banda para cada GPU. O sistema também integra Unidades de Processamento de Dados (DPUs) Nvidia BlueField-3, juntamente com o Nvidia NVLink de quinta geração.
Adicionalmente, o DGX SuperPod incorpora a tecnologia de Agregação e Redução Hierárquica Escalável de quarta geração (SHARP), que entrega 14,4 teraflops de computação em rede, representando um aumento de quatro vezes em relação ao seu predecessor.
Blackwell na Nvidia DGX Cloud
Os sistemas DGX baseados em GB200 estarão disponíveis em breve através do serviço Nvidia DGX Cloud, inicialmente acessível em plataformas importantes como Amazon Web Services (AWS), Google Cloud e Oracle Cloud.
Segundo Ian Buck, VP de Hyperscale e HPC na Nvidia, "o DGX Cloud foi projetado em parceria com nossos parceiros de nuvem para oferecer a melhor tecnologia Nvidia para nossa pesquisa em IA e para nossos clientes." A nova arquitetura GB200 também irá aprimorar o supercomputador Project Ceiba, que a Nvidia está desenvolvendo com a AWS, visando criar a maior plataforma de supercomputação em nuvem pública do mundo.
Buck anunciou um desenvolvimento empolgante: "O Project Ceiba evoluiu, agora atualizado para a arquitetura Grace Blackwell, suportando 20.000 GPUs, permitindo mais de 400 exaflops de IA."
Esses avanços colocam a Nvidia na vanguarda da tecnologia de IA, tornando o DGX SuperPod uma ferramenta notável para indústrias envolvidas em pesquisa e aplicações de IA.