Nvidia e Intel Estabelecem Novos Recordes de Velocidade de Treinamento de LLM nos Resultados do Benchmark MLPerf 3.1

O treinamento de modelos de IA acelerou significativamente em 2023, conforme revelado pelo mais recente benchmark MLPerf Training 3.1. O ritmo da inovação no setor de IA generativa é impressionante, com o treinamento rápido de modelos sendo um fator crucial nesse avanço. O benchmark MLCommons MLPerf monitora e quantifica essa eficiência de treinamento. O MLCommons é um consórcio de engenharia aberto dedicado a aprimorar benchmarks de aprendizado de máquina (ML), conjuntos de dados e melhores práticas para promover o desenvolvimento de IA.

O benchmark MLPerf Training 3.1 incluiu submissões de 19 fornecedores e gerou mais de 200 resultados de desempenho. Esta rodada destacou benchmarks para treinamento de grandes modelos de linguagem (LLMs), incluindo o GPT-3, e introduziu um novo benchmark para o modelo de geração de texto para imagem de código aberto, Stable Diffusion.

"Com mais de 200 resultados de desempenho, observamos melhorias substanciais entre 50% e quase 3x", afirmou David Kanter, diretor executivo do MLCommons, durante uma recente coletiva de imprensa.

Treinamento de LLMs Supera a Lei de Moore

Um aspecto notável dos benchmarks MLPerf Training 3.1 é o ganho significativo de desempenho no treinamento de LLMs. Desde junho, quando os dados de treinamento de LLM foram incluídos pela primeira vez, os benchmarks MLPerf 3.1 mostram um aumento de quase 3x no desempenho do treinamento de LLMs. "Comparando o benchmark de treinamento LLM mais rápido da primeira rodada em junho com o mais recente, conseguimos uma performance cerca de 2,8x mais rápida", observou Kanter. "Embora eu não possa prever rodadas futuras, essa melhoria é impressionante e indica capacidades incríveis."

Kanter acredita que esses recentes ganhos de desempenho para o treinamento de IA superam o que a Lei de Moore sugeriria, que prevê uma duplicação do desempenho computacional a cada poucos anos. Ele afirmou que o setor de IA está escalando arquitetura de hardware e software em um ritmo superior a essas previsões. "O MLPerf serve como um barômetro para o progresso da indústria", acrescentou Kanter.

Avanços Significativos de Líderes da Indústria

Intel, Nvidia e Google fizeram avanços notáveis nos resultados de treinamento de LLMs nos benchmarks MLPerf Training 3.1. A Intel relatou que seu acelerador Habana Gaudi 2 alcançou um aumento de velocidade de treinamento de 103% em comparação com os resultados de junho, utilizando técnicas como tipos de dados de ponto flutuante de 8 bits (FP8). "Habilitamos o FP8 com a mesma pilha de software, melhorando nossos resultados no hardware existente", disse Itay Hubara, pesquisador sênior da Intel. "Cumprimos nossa promessa na última submissão."

O Cloud TPU v5e do Google, lançado em 29 de agosto, também demonstrou ganhos de treinamento, aproveitando o FP8 para desempenho otimizado. Vaibhav Singh, gerente de produto para aceleradores em nuvem do Google, discutiu as capacidades de escalabilidade alcançadas com a tecnologia Cloud TPU multislice. "O Cloud TPU multislice escala efetivamente pela rede do data center", explicou Singh. "Com essa tecnologia, alcançamos um extraordinário desempenho de escalabilidade de até 1.024 nós utilizando 4.096 chips TPU v5e."

Supercomputador EOS da Nvidia Impulsiona Treinamento de LLMs

A Nvidia maximizou sua eficiência de treinamento de LLM utilizando seu supercomputador EOS, que entrou em discussão pela primeira vez em 2022. Os resultados mostraram um aumento de 2,8x na velocidade de treinamento para modelos GPT-3 em comparação com os benchmarks de junho. Dave Salvator, diretor de produtos de computação acelerada da Nvidia, destacou que o EOS é equipado com 10.752 GPUs conectadas via Nvidia Quantum-2 InfiniBand, operando a 400 gigabits por segundo, e 860 terabytes de memória HBM3. "As métricas de velocidade que estamos observando são extraordinárias", comentou Salvator. "Em termos de computação de IA, estamos ultrapassando 40 exaflops, o que é notável."

No geral, o benchmark MLPerf Training 3.1 ressalta os rápidos avanços no treinamento de IA, marcando um momento crucial na evolução da inteligência artificial.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles