Não existe um único medidor para avaliar o desempenho dos modelos de IA generativa, mas uma métrica importante é o número de tokens processados por segundo. Hoje, a SambaNova Systems anunciou uma conquista significativa em desempenho de IA generativa, alcançando impressionantes 1.000 tokens por segundo com seu modelo de instrução Llama 3 de 8 bilhões de parâmetros. Anteriormente, o recorde de velocidade do Llama 3 era de 800 tokens por segundo, registrado pela Groq. Este novo marco foi verificado de forma independente pela empresa de testes Artificial Analysis. O aumento na velocidade de processamento traz implicações importantes para as empresas, resultando potencialmente em tempos de resposta mais rápidos, melhor utilização de hardware e redução de custos operacionais.
Uma Corrida pelo Desempenho em IA
“Estamos testemunhando uma aceleração na corrida dos chips de IA além das expectativas. Ficamos empolgados em validar as alegações da SambaNova com benchmarks independentes focados no desempenho do mundo real”, disse George Cameron, cofundador da Artificial Analysis. “Os desenvolvedores de IA agora têm uma variedade maior de opções de hardware, o que é especialmente benéfico para aplicações dependentes de velocidade, como agentes de IA e soluções de IA para o consumidor que demandam tempos de resposta mínimos e processamento eficiente de documentos.”
Como a SambaNova Acelera o Llama 3 e a IA Generativa
A SambaNova se dedica a desenvolver soluções de IA generativa focadas em empresas, que combinam capacidades de hardware e software.
No lado do hardware, a empresa projetou um chip de IA único conhecido como Unidade de Fluxo de Dados Reconfigurável (RDU). Semelhante aos aceleradores de IA da Nvidia, os RDUs são adequados tanto para treinamento quanto para inferência, melhorando especificamente cargas de trabalho empresariais e o ajuste fino de modelos. O último modelo, o SN40L, foi apresentado em setembro de 2023.
A SambaNova também oferece uma pilha de software própria que inclui o modelo Samba-1, lançado em 28 de fevereiro. Este modelo, que compreende 1 trilhão de parâmetros, é chamado de Samba-CoE (Combinação de Especialistas), permitindo que as empresas utilizem múltiplos modelos de forma individual ou combinada, personalizados de acordo com suas necessidades de dados.
Para atingir a velocidade de 1.000 tokens por segundo, a SambaNova utilizou seu modelo Samba-1 Turbo, uma versão da API disponibilizada para teste. A empresa planeja integrar essas melhorias de velocidade em seu modelo principal para empresas em breve. No entanto, Cameron observou que a medição de 800 tokens por segundo da Groq se refere ao seu endpoint público da API, enquanto os resultados da SambaNova foram obtidos em um endpoint privado dedicado, tornando as comparações diretas menos claras. “No entanto, essa velocidade excede em mais de 8 vezes a média de saída de outros provedores de API que avaliamos e é várias vezes mais rápida do que as taxas de saída típicas nos Nvidia H100s”, afirmou Cameron.
Fluxo de Dados Reconfigurável para Desempenho Aprimorado
O desempenho da SambaNova é impulsionado por sua arquitetura de fluxo de dados reconfigurável, fundamental para sua tecnologia RDU. Essa arquitetura permite uma alocação otimizada de recursos entre camadas e núcleos da rede neural através de mapeamento de compilador. “Com o fluxo de dados, podemos refinar continuamente os mapeamentos dos modelos, já que é totalmente reconfigurável”, disse Rodrigo Liang, CEO e fundador da SambaNova. “Isso resulta não apenas em ganhos incrementais, mas em melhorias consideráveis em eficiência e desempenho à medida que o software evolui.”
Inicialmente, ao lançar o Llama 3, a equipe de Liang alcançou um desempenho de 330 tokens por segundo no Samba-1. Através de extensas otimizações nos últimos meses, essa velocidade agora triplicou para 1.000 tokens por segundo. Liang explicou que a otimização envolve equilibrar a distribuição de recursos entre núcleos para evitar gargalos e maximizar o rendimento geral na linha de processamento da rede neural, abordagem que é semelhante à utilizada na pilha de software da SambaNova para auxiliar as empresas em seus esforços de ajuste fino.
Qualidade Empresarial e Maior Velocidade
Liang enfatizou que a SambaNova alcança este marco de velocidade utilizando precisão de 16 bits, um padrão que garante a qualidade exigida pelas empresas. Ele afirmou: “Temos utilizado consistentemente a precisão de 16 bits para nossos clientes, pois eles priorizam a qualidade e a minimização de alucinações nas saídas.”
A importância da velocidade para os usuários empresariais está crescendo à medida que as organizações adotam cada vez mais fluxos de trabalho dirigidos por agentes de IA. Além disso, tempos de geração mais rápidos oferecem vantagens econômicas. “Quanto mais rápido conseguirmos gerar respostas, mais recursos disponíveis liberamos para outros usarem”, observou. “Isso resulta, em última análise, em uma infraestrutura mais compacta e redução de custos.”