Nvidia Triplica, Intel Duplica Desempenho de Inferência em IA nos Últimos Resultados do MLPerf

MLCommons Lança MLPerf 4.0: Um Benchmark para Inferência em IA

MLCommons apresentou os benchmarks MLPerf 4.0 para inferência em IA, destacando os rápidos avanços em software e hardware. À medida que a IA generativa evolui e ganha destaque, a necessidade de um framework de benchmark de desempenho neutro em relação aos fornecedores se torna ainda mais crítica. O MLCommons atende a essa demanda por meio de seus benchmarks MLPerf, que fornecem informações valiosas sobre as capacidades de treinamento e inferência. Os resultados da inferência do MLPerf 4.0 marcam a primeira atualização desde a publicação dos resultados do MLPerf 3.1 em setembro de 2023.

O desenvolvimento em IA progrediu significativamente nos últimos seis meses, com grandes empresas de hardware como Nvidia e Intel aprimorando seus produtos para otimizar o desempenho de inferência. Os novos resultados do MLPerf 4.0 demonstram melhorias substanciais nas tecnologias tanto da Nvidia quanto da Intel.

Os benchmarks de inferência do MLPerf também passaram por mudanças. Enquanto o MLPerf 3.1 apresentava o modelo GPT-J 6B para sumarização de texto, o MLPerf 4.0 agora se concentra no amplamente utilizado modelo Llama 2 de 70 bilhões de parâmetros para perguntas e respostas (Q&A). Além disso, pela primeira vez, o MLPerf 4.0 introduz um benchmark para criação de imagens de IA generativa usando Stable Diffusion.

"MLPerf serve como padrão da indústria para aprimorar velocidade, eficiência e precisão em IA," afirmou David Kanter, fundador e diretor executivo do MLCommons, durante uma coletiva de imprensa.

Por que os Benchmarks de IA são Importantes

O mais recente benchmark do MLCommons inclui mais de 8.500 resultados de desempenho, avaliando várias combinações de hardware, software e casos de uso de inferência em IA. Kanter enfatizou a importância de estabelecer métricas significativas para o desempenho da IA. "O objetivo é criar métricas robustas que meçam as capacidades da IA, permitindo aprimoramentos futuros," explicou.

O MLCommons visa unificar a indústria através da realização de testes padronizados utilizando conjuntos de dados e configurações consistentes em diferentes sistemas. Todos os resultados são compartilhados com os participantes, promovendo transparência e melhoria colaborativa.

Essa abordagem padronizada permite que as empresas tomem decisões informadas ao escolher soluções de IA. “Isso ajuda os compradores a avaliar sistemas — sejam eles locais, baseados em nuvem ou incorporados — com base em cargas de trabalho relevantes,” observou Kanter. “Se você está no mercado por um sistema para executar inferência de modelos de linguagem grandes, os benchmarks podem orientar suas escolhas."

Nvidia Lidera o Desempenho em Inferência de IA

A Nvidia mais uma vez demonstra sua dominância nos benchmarks MLPerf com resultados notáveis. Embora novos hardwares normalmente melhorem o desempenho, a Nvidia conseguiu aprimorar as capacidades de inferência em sua tecnologia existente. Utilizando a tecnologia de inferência de código aberto TensorRT-LLM da Nvidia, a empresa quase triplicou o desempenho de inferência de sua GPU H100 Hopper para sumarização de texto usando o modelo GPT-J.

Dave Salvator, diretor de produtos de computação acelerada da Nvidia, expressou entusiasmo pelos ganhos de desempenho obtidos em seis meses. “Melhoramos significativamente o desempenho, graças aos esforços de nossa equipe de engenharia para otimizar a arquitetura Hopper,” disse ele.

Na semana passada, durante o GTC, a Nvidia anunciou a GPU Blackwell, sucessora da arquitetura Hopper. Embora o cronograma para a benchmark de Blackwell no MLPerf não esteja confirmado, Salvator espera que ocorra em breve.

Mesmo antes da benchmark de Blackwell, os resultados do MLPerf 4.0 apresentam a nova GPU H200, que apresenta desempenho de inferência até 45% mais rápido em comparação com a H100 ao ser avaliada com Llama 2.

Intel Reforça a Importância dos CPUs na Inferência de IA

A Intel participou ativamente dos benchmarks MLPerf 4.0, exibindo suas tecnologias de acelerador AI Habana e CPU Xeon. Embora os resultados de desempenho do Gaudi fiquem atrás da H100 da Nvidia, a Intel afirma que oferece melhores relações de custo-benefício. Mais significativamente, o novo processador Intel Xeon de 5ª geração demonstra ganhos impressionantes para tarefas de inferência.

Durante uma coletiva de imprensa, Ronak Shah, diretor de produtos de IA para Xeon na Intel, destacou que o Xeon de 5ª geração é 1,42 vezes mais rápido para inferência em comparação com a geração anterior. Especificamente, para a tarefa de sumarização de texto do LLM GPT-J, o Xeon de 5ª geração alcançou velocidades até 1,9 vezes mais rápidas.

“Entendemos que muitas empresas precisam de soluções que integrem capacidades de processamento geral e de IA,” afirmou Shah. “Nossos CPUs são projetados para combinar um processamento robusto de propósito geral com um desempenho avançado de IA por meio de nosso motor AMX.”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles