Engenheiro da Meta: Apenas Duas Usinas Nucleares Serão Necessárias para Alimentar a Inferência de IA em 2024

O Diretor de Engenharia em IA Generativa da Meta, Sergey Edunov, fez recentemente uma estimativa surpreendente sobre a energia necessária para atender à crescente demanda por aplicações de IA no próximo ano: apenas duas novas usinas nucleares. Durante um painel que moderei no Digital Workers Forum, no Vale do Silício, Edunov, responsável pelo treinamento do modelo de base de código aberto Llama 2 da Meta, afirmou que essa quantidade de energia deve ser suficiente para sustentar as necessidades de IA da humanidade por um ano. Ao abordar preocupações sobre a capacidade global de suportar o aumento nos requisitos energéticos da IA generativa, ele comentou: “Podemos definitivamente resolver esse problema.”

Edunov reconheceu que sua avaliação se baseava em cálculos aproximados, mas considerou uma estimativa razoável para a energia requerida para "inferencia". A inferencia é o processo pelo qual a IA responde a perguntas ou faz recomendações, que ocorre após um modelo passar por treinamento extensivo.

Necessidades Energéticas para Inferência Sob Controle

Edunov fez uma distinção entre os requisitos de energia para inferência e treinamento. Ele explicou que a inferência representa a maior parte do processamento à medida que as organizações implementam aplicações de IA. Seu cálculo para a inferência considerou o lançamento esperado de um a dois milhões de GPUs H100 pela Nvidia no próximo ano. Quando totalmente utilizadas para gerar tokens em modelos de linguagem de tamanho médio, isso corresponderia a aproximadamente 100.000 tokens por pessoa na Terra diariamente—uma quantidade substancial.

Tokens são as unidades fundamentais de texto que os modelos de linguagem utilizam para processar e gerar linguagem. A energia necessária para esses cálculos é significativa; cada GPU H100 consome cerca de 700 watts. Considerando também a energia adicional para centros de dados e refrigeração, Edunov arredondou esse número para 1 quilowatt por GPU. No final, ele concluiu que apenas duas reatores nucleares seriam necessários para alimentar todas as GPUs de maneira eficaz. “Na escala da humanidade, não é tanto assim,” observou Edunov, sugerindo que a sociedade poderia razoavelmente suportar 100.000 tokens por dia por pessoa.

Treinando IA Generativa: O Desafio dos Dados

Em contraste, Edunov enfatizou que o treinamento de LLMs apresenta um desafio diferente: a aquisição de dados suficientes. Ele estimou que, embora a internet pública contenha cerca de 100 trilhões de tokens, esse número diminui significativamente após limpeza e deduplicação, podendo chegar a 10-20 trilhões de tokens. Notavelmente, se dados de alta qualidade forem priorizados, a quantidade de tokens disponíveis será ainda menor. Ele expressou preocupação de que os modelos da próxima geração possam exigir uma ordem de magnitude a mais de dados do que suas versões anteriores. Por exemplo, se o GPT-4 foi treinado com 20 trilhões de tokens, o próximo modelo poderia necessitar de cerca de 200 trilhões de tokens, e esses dados podem não estar prontamente disponíveis.

Edunov destacou que os pesquisadores estão explorando técnicas de eficiência para melhorar o aprendizado dos modelos a partir de conjuntos de dados menores, além de acessar fontes de dados alternativas, como entradas multimodais (incluindo vídeo).

Insights do Painel sobre Recursos e Tecnologias de Dados

Edunov participou do painel intitulado “Gerando Tokens: A Eletricidade da Era GenAI”, ao lado de Nik Spirin, Diretor de IA Generativa na Nvidia, e Kevin Tsai, Chefe de Arquitetura de Soluções para IA Generativa no Google. Spirin ecoou os pensamentos de Edunov, indicando que existem reservatórios de dados adicionais além da internet pública, mesmo com acesso restrito.

Spirin defendeu a necessidade de modelos fundamentais de código aberto para reduzir redundâncias computacionais entre esforços independentes. Essa abordagem colaborativa poderia capitalizar modelos pré-treinados, permitindo que as organizações se concentrem no desenvolvimento de aplicações inteligentes.

Tsai comentou que várias tecnologias emergentes, como a Geração Aumentada por Recuperação (RAG), poderiam aliviar o ônus do treinamento enquanto melhoram o desempenho dos modelos. Iniciativas colaborativas podem levar a modelos versáteis em várias aplicações, o que ele acredita ser vital para a sustentabilidade.

Previsões Futuras para o Desenvolvimento de LLM

Ao fim do painel, convidei os painelistas a compartilhar suas previsões sobre os avanços dos LLMs nos próximos dois a três anos. Eles concordaram que, embora a trajetória exata das melhorias nos LLMs permaneça incerta, o valor substancial que proporcionam já é evidente, com uma ampla adoção empresarial antecipada dentro de dois anos.

Edunov previu que teríamos clareza sobre a viabilidade da inteligência geral artificial (AGI) em três a quatro anos. Com base em tendências tecnológicas passadas, Spirin sugeriu que as empresas podem ser inicialmente cautelosas na adoção de tecnologias de IA, mas um valor significativo provavelmente se materializará dentro de dois anos.

Tsai identificou desafios na cadeia de suprimentos, decorrentes da dependência da Nvidia em memória de alta largura de banda para GPUs, como um gargalo crítico na melhoria dos modelos. No entanto, ele expressou otimismo sobre inovações como o projeto Blib-2 da Salesforce, que busca criar modelos menores e mais eficientes, potencialmente contornando as limitações atuais.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles