Todos estão falando sobre os impressionantes ganhos da Nvidia, que aumentarão 265% em relação ao ano anterior. No entanto, não subestime a Groq, uma startup do Silicon Valley que está inovando com chips de IA para inferência de grandes modelos de linguagem (LLM) — o processo de fazer previsões usando modelos existentes em vez de treinar novos. No último fim de semana, a Groq experimentou um aumento de atenção que muitas startups só podem sonhar.
Embora não tenha sido tão sensational quanto um dos posts de Elon Musk sobre o modelo Grok, a Nvidia certamente ficou atenta quando Matt Shumer, CEO da HyperWrite, compartilhou no X sobre a “tecnologia selvagem” da Groq. Shumer destacou a capacidade da Groq de operar Mixtral a quase 500 tokens por segundo (tok/s) com respostas quase instantâneas.
Shumer também apresentou um “motor de respostas relâmpago” no X, fornecendo “respostas factuais e citadas com centenas de palavras em menos de um segundo.” Isso gerou um interesse generalizado no aplicativo de chat da Groq, onde os usuários podem selecionar resultados gerados pelos LLMs Llama e Mistral. Essa agitação seguiu uma entrevista onde o CEO da Groq, Jonathan Ross, demonstrou como a Groq possibilita uma interface de chat de áudio que “quebra recordes de velocidade.”
Atualmente, nenhuma empresa rivaliza com a dominância da Nvidia, que detém mais de 80% do mercado de chips de alta performance. Outras startups de chips de IA, como SambaNova e Cerebras, têm encontrado dificuldades para ganhar espaço, apesar de entrarem na esfera de inferência de IA. Com a Nvidia reportando $22 bilhões em receita no quarto trimestre, Ross enfatizou que a Groq oferece uma opção "super-rápida" e econômica, voltada para LLMs, abordando os altos custos associados à inferência.
Ross declarou audaciosamente: “Provavelmente seremos a infraestrutura que a maior parte das startups estará utilizando até o final do ano," e incentivou as startups a entrar em contato em busca de preços competitivos.
LPUs da Groq vs. GPUs da Nvidia
A Groq descreve suas LPUs, ou unidades de processamento de linguagem, como um sistema de processamento inovador de ponta a ponta, otimizado para a rápida inferência necessária em aplicações de linguagem de IA. Ao contrário das GPUs da Nvidia, que se concentram no processamento gráfico paralelo, as LPUs da Groq gerenciam sequências de dados — como código e linguagem natural — permitindo saídas mais rápidas ao superar as limitações de densidade computacional e largura de banda de memória enfrentadas pelas GPUs e CPUs tradicionais.
Além disso, Ross observou que a Groq se diferencia de empresas como a OpenAI por não treinar modelos, o que significa que pode manter a privacidade do usuário evitando o registro de consultas de chat.
Com estimativas de que o ChatGPT poderia funcionar mais de 13 vezes mais rápido usando chips da Groq, será que a OpenAI pode se tornar uma parceira futura? Embora Ross não tenha confirmado colaborações específicas, mencionou que uma parceria poderia ser benéfica se ambas as partes compartilhassem objetivos comuns.
As LPUs da Groq são realmente revolucionárias na inferência de IA?
Eu estava ansioso para conversar com Ross desde dezembro, quando a Groq foi promovida como “o fabricante de chips dos EUA pronto para vencer a corrida da IA.” Agora, eu queria entender se as LPUs da Groq são realmente um avanço na inferência de IA ou apenas mais uma tendência passageira movida por marketing.
Ross descreveu os posts de Shumer como “a faísca que acendeu o pavio,” observando que mais de 3.000 indivíduos procuraram acesso à API em 24 horas. “Estamos permitindo que as pessoas usem isso gratuitamente no momento,” acrescentou.
Ross não é novato no cenário de startups; ele co-inventou a unidade de processamento tensorial (TPU) do Google antes de fundar a Groq em 2016. Ele explicou que a abordagem da Groq é única: “Se você está construindo um carro, pode começar com o motor ou a experiência de direção. Nós começamos com a experiência de direção, passando os primeiros seis meses focando no desenvolvimento de um compilador sofisticado.”
A demanda por GPUs da Nvidia cresceu na indústria de IA, criando um mercado lucrativo. Novos serviços de GPU em nuvem surgiram, enquanto o ex-CEO do GitHub, Nat Friedman, mencionou recentemente um mercado para clusters de GPU. Relatórios indicam que o CEO da OpenAI, Sam Altman, planeja atender às demandas de chips de IA por meio de um projeto maciço com um custo exorbitante e complicadas implicações geopolíticas.
Ross acredita que o cenário atual das GPUs é, de certa forma, uma resposta às iniciativas da Groq. “Há um ciclo virtuoso,” disse ele, referindo-se aos negócios da Nvidia com nações soberanas como parte de suas próximas negociações globais.
Quando questionado sobre a ambição de Altman para uma iniciativa de chips de IA de $7 trilhões, Ross afirmou com confiança: “Poderíamos fazer isso por $700 bilhões. Somos uma pechincha.”
A Groq também pretende ampliar suas capacidades de fornecimento de chips de IA. “[Até o final do ano], teremos definitivamente uma capacidade de 25 milhões de tokens por segundo, que é onde estimamos que a OpenAI estará no final de 2023,” disse ele, destacando discussões em andamento com vários países para expandir essa capacidade.
No entanto, a Groq também deve enfrentar desafios práticos, como a implementação de cobrança de API em razão do recente aumento de interesse. Quando perguntei sobre seus planos para a cobrança, Ross respondeu: “Vamos analisar isso,” apenas para que sua representante de PR afirmasse: “Sim, isso estará entre as primeiras prioridades.”