A Nvidia não está sozinha no cenário dos aceleradores de IA; a Intel está avançando significativamente com sua tecnologia Gaudi 2, como destacado em uma nova pesquisa da Databricks. O estudo revela que o Intel Gaudi 2 compete de forma robusta contra os principais aceleradores de IA da Nvidia. Para a inferência de modelos de linguagem de grande porte (LLM), o Gaudi 2 iguala a latência dos sistemas Nvidia H100 em decodificação e supera o desempenho do Nvidia A100. Além disso, o Gaudi 2 alcança uma utilização de largura de banda de memória superior tanto ao H100 quanto ao A100.
Embora os aceleradores de alto desempenho da Nvidia ainda ofereçam um desempenho superior em treinamento, a Databricks encontrou que o Gaudi 2 fornece o segundo melhor desempenho de treinamento em um único nó para LLM, ficando atrás somente do Nvidia H100, com mais de 260 TFLOPS por chip. Notavelmente, com base nos preços da nuvem pública, o Gaudi 2 oferece a melhor relação custo-benefício para treinamento e inferência em comparação com o A100 e H100.
A Intel também está compartilhando os resultados dos testes do Gaudi 2 por meio do benchmark MLPerf da MLcommons, validando ainda mais o desempenho da tecnologia por meio de dados de terceiros. "Ficamos impressionados com a eficiência do Gaudi 2, especialmente na inferência de LLM," disse Abhinav Venigalla, arquiteto principal de NLP da Databricks. Ele observou que a equipe não teve tempo para explorar completamente os benefícios de desempenho do suporte FP8 do Gaudi 2 na última versão do software.
As percepções da Intel estão alinhadas com os achados da Databricks. Eitan Medina, COO da Habana Labs (uma subsidiária da Intel), afirmou que o relatório corrobora as métricas de desempenho internas da Intel e o feedback dos clientes. “Validar nossas afirmações é essencial, especialmente porque muitos consideram o Gaudi o melhor segredo da Intel,” comentou, enfatizando a importância de publicações desse tipo para aumentar a visibilidade.
Desde que adquiriu a Habana Labs e sua tecnologia Gaudi em 2019 por US$ 2 bilhões, a Intel tem aprimorado continuamente suas capacidades. Tanto a Intel quanto a Nvidia participam ativamente dos benchmarks MLPerf da MLcommons, que são atualizados regularmente. Os mais recentes benchmarks MLPerf 3.1, divulgados em novembro, mostraram novos recordes de velocidade de treinamento para LLM de ambas as empresas, complementados por um desempenho competitivo nos benchmarks de inferência de setembro.
Embora benchmarks como o MLPerf sejam informativos, Medina destacou que muitos clientes priorizam seus testes para garantir a compatibilidade com modelos e casos de uso específicos. “A maturidade da pilha de software é crucial, pois os clientes às vezes são céticos em relação a benchmarks onde os fornecedores otimizam fortemente para métricas específicas,” disse ele. Medina considera os resultados do MLPerf como um filtro inicial valioso antes que as empresas invistam mais tempo em testes.
Olhando para o futuro, a Intel está se preparando para introduzir o acelerador de IA Gaudi 3 em 2024. O Gaudi 3, construído em um processo de 5 nanômetros, promete entregar quatro vezes mais poder de processamento e o dobro da largura de banda da rede em comparação ao Gaudi 2. Medina afirmou: “O Gaudi 3 representa um salto significativo em desempenho, melhorando o desempenho por dólar e por watt.”
Além do Gaudi 3, a Intel planeja desenvolver gerações futuras que integrarão tecnologias de computação de alto desempenho (HPC) e aceleradores de IA. A empresa também reconhece a importância de suas tecnologias de CPU para cargas de trabalho de inferência de IA, anunciando recentemente os processadores Xeon de 5ª Geração com aceleração de IA. “As CPUs ainda desempenham um papel crucial em tarefas de inferência e ajuste fino, especialmente quando combinadas com aceleradores Gaudi para cargas de trabalho de computação de IA de alta densidade,” concluiu Medina, defendendo uma diversidade de soluções.