Explorando os Custos e Benefícios da IA com Infraestrutura Serverless
Executar aplicações de IA gera diversos custos, sendo a potência de GPU para inferência uma das despesas mais críticas. Tradicionalmente, organizações que gerenciam a inferência de IA têm dependido de instâncias de nuvem contínuas ou hardware local. Contudo, o Google Cloud está apresentando uma solução inovadora que pode transformar a implementação de aplicações de IA: a integração das GPUs Nvidia L4 com sua oferta serverless Cloud Run, permitindo que as organizações realizem inferência serverless.
Aproveitando o Poder da Inferência Serverless
A principal vantagem da arquitetura serverless é a sua eficiência de custos; os serviços operam apenas quando necessário, permitindo que os usuários paguem somente pelo uso. Ao contrário das instâncias de nuvem convencionais que funcionam continuamente, as GPUs serverless são ativadas apenas durante solicitações específicas.
A inferência serverless pode utilizar Nvidia NIM e diversas estruturas, incluindo VLLM, PyTorch e Ollama. O suporte às GPUs Nvidia L4, atualmente em versão de teste, tem sido amplamente aguardado.
“À medida que os clientes adotam cada vez mais a IA, eles desejam implantar cargas de trabalho de IA em plataformas familiares,” afirmou Sagar Randive, Gerente de Produto para Google Cloud Serverless. “A eficiência e flexibilidade do Cloud Run são cruciais, e os usuários solicitaram suporte a GPUs.”
A Transição para um Ambiente de IA Serverless
O Cloud Run do Google, uma plataforma serverless totalmente gerida, conquistou popularidade entre os desenvolvedores pela facilidade de implantação e gerenciamento de contêineres. Com o crescimento das cargas de trabalho de IA—especialmente aquelas que requerem processamento em tempo real—tornou-se evidente a necessidade de recursos computacionais aprimorados.
A adição do suporte para GPUs abre diversas possibilidades para os desenvolvedores do Cloud Run, como:
- Inferência em tempo real com modelos leves como Gemma 2B/7B ou Llama 3 (8B), facilitando o desenvolvimento de chatbots responsivos e ferramentas dinâmicas de resumo de documentos.
- Modelos de IA generativa personalizados e ajustados, possibilitando aplicações escaláveis de geração de imagens adaptadas a marcas específicas.
- Tarefas intensivas em computação aceleradas, incluindo reconhecimento de imagens, transcodificação de vídeos e renderização 3D, que podem escalar para zero quando ociosas.
Considerações de Desempenho para Inferência de IA Serverless
Uma preocupação comum associada a arquiteturas serverless é o desempenho, especialmente com os tempos de inicialização a frio. O Google Cloud aborda essas preocupações fornecendo métricas impressionantes: os tempos de inicialização a frio para vários modelos, incluindo Gemma 2B, Gemma 2 9B, Llama 2 7B/13B e Llama 3.1 8B, variam de 11 a 35 segundos.
Cada instância do Cloud Run pode ser equipada com uma GPU Nvidia L4, fornecendo até 24GB de vRAM—adequado para a maioria das tarefas de inferência de IA. O Google Cloud visa manter a agnosticidade dos modelos, embora recomende o uso de modelos com menos de 13 bilhões de parâmetros para um desempenho ideal.
Eficiência de Custos da Inferência de IA Serverless
Uma vantagem significativa do modelo serverless é seu potencial para melhor utilização do hardware, o que pode resultar em economia. No entanto, se a inferência de IA serverless se mostrar mais barata do que servidores convencionais de longa duração depende da aplicação específica e dos padrões de trânsito esperados.
“Isso é nuançado,” explicou Randive. “Atualizaremos nosso calculador de preços para refletir a nova precificação de GPUs com o Cloud Run, permitindo que os clientes comparem seus custos operacionais totais em diferentes plataformas.”
Ao se adaptar a essa nova política serverless, as organizações podem otimizar suas estratégias de implantação de IA enquanto gerenciam os custos de forma eficaz.