Google Cloud Run Integra GPUs da Nvidia para Aprimorar Inferência de IA Serverless

Home Notícias de IA Google Cloud Run Integra GPUs da Nvidia para Aprimorar Inferência de IA Serverless

Explorando os Custos e Benefícios da IA com Infraestrutura Serverless

Executar aplicações de IA gera diversos custos, sendo a potência de GPU para inferência uma das despesas mais críticas. Tradicionalmente, organizações que gerenciam a inferência de IA têm dependido de instâncias de nuvem contínuas ou hardware local. Contudo, o Google Cloud está apresentando uma solução inovadora que pode transformar a implementação de aplicações de IA: a integração das GPUs Nvidia L4 com sua oferta serverless Cloud Run, permitindo que as organizações realizem inferência serverless.

Aproveitando o Poder da Inferência Serverless

A principal vantagem da arquitetura serverless é a sua eficiência de custos; os serviços operam apenas quando necessário, permitindo que os usuários paguem somente pelo uso. Ao contrário das instâncias de nuvem convencionais que funcionam continuamente, as GPUs serverless são ativadas apenas durante solicitações específicas.

A inferência serverless pode utilizar Nvidia NIM e diversas estruturas, incluindo VLLM, PyTorch e Ollama. O suporte às GPUs Nvidia L4, atualmente em versão de teste, tem sido amplamente aguardado.

“À medida que os clientes adotam cada vez mais a IA, eles desejam implantar cargas de trabalho de IA em plataformas familiares,” afirmou Sagar Randive, Gerente de Produto para Google Cloud Serverless. “A eficiência e flexibilidade do Cloud Run são cruciais, e os usuários solicitaram suporte a GPUs.”

A Transição para um Ambiente de IA Serverless

O Cloud Run do Google, uma plataforma serverless totalmente gerida, conquistou popularidade entre os desenvolvedores pela facilidade de implantação e gerenciamento de contêineres. Com o crescimento das cargas de trabalho de IA—especialmente aquelas que requerem processamento em tempo real—tornou-se evidente a necessidade de recursos computacionais aprimorados.

A adição do suporte para GPUs abre diversas possibilidades para os desenvolvedores do Cloud Run, como:

- Inferência em tempo real com modelos leves como Gemma 2B/7B ou Llama 3 (8B), facilitando o desenvolvimento de chatbots responsivos e ferramentas dinâmicas de resumo de documentos.

- Modelos de IA generativa personalizados e ajustados, possibilitando aplicações escaláveis de geração de imagens adaptadas a marcas específicas.

- Tarefas intensivas em computação aceleradas, incluindo reconhecimento de imagens, transcodificação de vídeos e renderização 3D, que podem escalar para zero quando ociosas.

Considerações de Desempenho para Inferência de IA Serverless

Uma preocupação comum associada a arquiteturas serverless é o desempenho, especialmente com os tempos de inicialização a frio. O Google Cloud aborda essas preocupações fornecendo métricas impressionantes: os tempos de inicialização a frio para vários modelos, incluindo Gemma 2B, Gemma 2 9B, Llama 2 7B/13B e Llama 3.1 8B, variam de 11 a 35 segundos.

Cada instância do Cloud Run pode ser equipada com uma GPU Nvidia L4, fornecendo até 24GB de vRAM—adequado para a maioria das tarefas de inferência de IA. O Google Cloud visa manter a agnosticidade dos modelos, embora recomende o uso de modelos com menos de 13 bilhões de parâmetros para um desempenho ideal.

Eficiência de Custos da Inferência de IA Serverless

Uma vantagem significativa do modelo serverless é seu potencial para melhor utilização do hardware, o que pode resultar em economia. No entanto, se a inferência de IA serverless se mostrar mais barata do que servidores convencionais de longa duração depende da aplicação específica e dos padrões de trânsito esperados.

“Isso é nuançado,” explicou Randive. “Atualizaremos nosso calculador de preços para refletir a nova precificação de GPUs com o Cloud Run, permitindo que os clientes comparem seus custos operacionais totais em diferentes plataformas.”

Ao se adaptar a essa nova política serverless, as organizações podem otimizar suas estratégias de implantação de IA enquanto gerenciam os custos de forma eficaz.

Midjourney Lança Website para Todos os Usuários: Ganhe 25 Gerações de Imagens AI Grátis Hoje!

LambdaTest Lança KaneAI: Seu Agente Completo para Testes de Software Abrangentes

Most people like

uPass

134.4K

No cenário educacional em rápida evolução de hoje, os alunos enfrentam desafios únicos ao realizar tarefas de escrita e garantir a integridade acadêmica. Com o surgimento de ferramentas de inteligência artificial, é essencial contar com detectores de IA confiáveis que possam identificar conteúdos gerados por IA, enquanto se utilizam reestruturadores de IA avançados que permitem aos estudantes criar trabalhos originais e de alta qualidade sem serem detectados. Essa poderosa combinação capacita os alunos a aprimorar suas habilidades de escrita e manter a integridade acadêmica, tudo isso enquanto navegam nas complexidades da educação moderna.

Detetor de IA AI Rewriter

Kardome

9.1K

Entrada de comando de voz instantânea e reprodução de áudio.

Design de VUI AI Voice Assistants

Findr

19K

Desbloqueie o potencial de um ChatGPT Privado adaptado para o seu negócio, integrando-se perfeitamente aos dados da sua empresa para um desempenho ideal.

Produtividade em IA Research Tool

ColorifyAI

5.7K

Você está procurando uma forma divertida e inovadora de interagir com a arte? Um gerador de páginas para colorir com IA pode elevar sua experiência criativa, transformando imagens e ideias em páginas para colorir exclusivas. Seja você um pai buscando atividades divertidas para seus filhos, um artista em busca de inspiração ou alguém que deseja relaxar com um hobby calmante, esta ferramenta de ponta oferece possibilidades infinitas. Descubra como a IA pode acender sua imaginação e dar vida às suas páginas para colorir!

ColorifyAI AI Photo & Image Generator

Find AI tools in YBX