O Google Aprimora o Hipercomputador de IA para Aplicações Empresariais na Cloud Next

Em dezembro de 2023, o Google apresentou seu “AI Hypercomputer”, uma arquitetura de supercomputador pioneira que combina hardware otimizado para desempenho, software aberto, as principais estruturas de aprendizado de máquina e modelos de consumo flexíveis. A iniciativa visa melhorar a eficiência e a produtividade no treinamento, ajuste e implementação de IA para os clientes do Google Cloud, competindo com a Microsoft e a Amazon por participação no mercado empresarial.

Clientes do Google Cloud podem acessar virtualmente esse AI Hypercomputer, permitindo que treinem seus próprios modelos e aplicações de IA. Clientes como Salesforce e Lightricks já aproveitaram com sucesso o AI Hypercomputer TPU v5p do Google Cloud para o treinamento de grandes modelos de IA.

Durante o Google Cloud Next 2024, a conferência anual em Las Vegas, o Google apresentou melhorias significativas em seu AI Hypercomputer, destacando o aumento do número de clientes de alto perfil utilizando a plataforma.

Melhorias no Google Cloud AI Hypercomputer

A primeira grande atualização envolve a disponibilidade da Unidade de Processamento Tensor (TPU) v5p do Google Cloud—seu acelerador de IA mais potente, escalável e flexível. Além disso, o Google está aprimorando a sua família de máquinas virtuais (VM) A3, introduzindo configurações A3 Mega impulsionadas por GPUs NVIDIA H100 Tensor Core, que serão lançadas em maio. As VMs A3 Mega utilizarão essas GPUs avançadas, cada uma contendo 80 bilhões de transistores.

O Google também planeja integrar as novas GPUs Blackwell da Nvidia, aumentando o suporte para cargas de trabalho de computação de alto desempenho (HPC) e IA. Isso inclui máquinas virtuais equipadas com GPUs Nvidia HGX B200 e GB200 NVL72, projetadas especificamente para tarefas exigentes de IA e análise de dados. As GPUs GB200 NVL72, refrigeradas a líquidos, oferecerão inferência em tempo real para modelos de linguagem de larga escala e suportarão o treinamento em grande escala para modelos com trilhões de parâmetros.

Embora os modelos de IA com trilhões de parâmetros ainda estejam emergindo—como SambaNova e o Switch Transformer do Google—fabricantes de chips como Nvidia e Cerebras estão em uma corrida para desenvolver hardware para esses tamanhos crescentes de modelos.

Clientes notáveis do Google Cloud, como a Character.AI, uma empresa de chatbots avaliada em mais de 1 bilhão de dólares, já estão se beneficiando da configuração atual da A3. O CEO Noam Shazeer enfatizou que o uso das TPUs e VMs A3 do Google Cloud permite um treinamento e uma inferência mais rápidos e eficientes de grandes modelos de linguagem (LLMs). Ele destacou o potencial de uma performance com mais de 2X de eficiência de custo da nova geração de plataformas.

Apresentando o JetStream para Melhor Desempenho em IA

No lado do software, o Google Cloud lançou o JetStream, um mecanismo de inferência otimizado para grandes modelos de linguagem. Esta ferramenta melhora o desempenho financeiro em modelos abertos e suporta estruturas como JAX e PyTorch/XLA, aumentando a eficiência e reduzindo os custos.

Soluções de Armazenamento Aprimoradas para Cargas de Trabalho de IA

As soluções de armazenamento do Google também estão recebendo melhorias. A introdução de recursos de caching posicionará os dados mais próximos das instâncias de computação, acelerando o treinamento de IA, otimizando a eficiência das GPUs e TPUs, e aumentando a rentabilidade energética. O Hyperdisk ML, um novo serviço de armazenamento em bloco, melhora os fluxos de trabalho de inferência e implementação de IA, oferecendo tempos de carregamento de modelos até 12 vezes mais rápidos.

Outras atualizações incluem o Cloud Storage FUSE, que potencializa a taxa de treinamento em 2,9X, e o Parallelstore, que permite caching que acelera as velocidades de treinamento em até 3,9X em comparação com carregadores de dados tradicionais. O sistema Filestore permite o acesso simultâneo a dados entre GPUs e TPUs, melhorando os tempos de treinamento em até 56%.

Colaborações e Atualizações de Software

O Google também está promovendo novas colaborações e implementações escaláveis para modelos de difusão e linguagem baseados em JAX. O suporte ao código aberto do PyTorch/XLA 2.3 melhorará a escalabilidade do treinamento distribuído através de recursos como auto-sharding e checkpointing assíncrono.

Em parceria com a Hugging Face, o Optimum-TPU do Google Cloud permite aos clientes otimizar o treinamento e a implementação de modelos de IA nas TPUs do Google. Além disso, o Google oferecerá microserviços de inferência NVIDIA NIM, proporcionando aos desenvolvedores opções flexíveis para treinamento e implantação de IA.

Para facilitar o uso, o Google Cloud introduziu um Agendador de Carga de Trabalho Dinâmico, permitindo que os clientes reservem GPUs por intervalos de 14 dias, otimizando os custos para cargas de trabalho de IA.

Essas atualizações exemplificam os benefícios práticos dos negócios que surgem da pesquisa e das soluções inovadoras do Google, criando um ambiente integrado, eficiente e escalável para treinamento e inferência de IA.

Quanto à precificação das ofertas do AI Hypercomputer, os detalhes ainda não foram divulgados. Será crucial observar como esta plataforma competirá contra o Microsoft Azure e o AWS para o desenvolvimento de IA empresarial, e se o Google conseguirá manter seu compromisso de melhorar e oferecer suporte extensivo ao AI Hypercomputer.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles