Google Cloud Run Integra GPUs da Nvidia para Aprimorar Inferência de IA Serverless

Home Notícias de IA Google Cloud Run Integra GPUs da Nvidia para Aprimorar Inferência de IA Serverless

Explorando os Custos e Benefícios da IA com Infraestrutura Serverless

Executar aplicações de IA gera diversos custos, sendo a potência de GPU para inferência uma das despesas mais críticas. Tradicionalmente, organizações que gerenciam a inferência de IA têm dependido de instâncias de nuvem contínuas ou hardware local. Contudo, o Google Cloud está apresentando uma solução inovadora que pode transformar a implementação de aplicações de IA: a integração das GPUs Nvidia L4 com sua oferta serverless Cloud Run, permitindo que as organizações realizem inferência serverless.

Aproveitando o Poder da Inferência Serverless

A principal vantagem da arquitetura serverless é a sua eficiência de custos; os serviços operam apenas quando necessário, permitindo que os usuários paguem somente pelo uso. Ao contrário das instâncias de nuvem convencionais que funcionam continuamente, as GPUs serverless são ativadas apenas durante solicitações específicas.

A inferência serverless pode utilizar Nvidia NIM e diversas estruturas, incluindo VLLM, PyTorch e Ollama. O suporte às GPUs Nvidia L4, atualmente em versão de teste, tem sido amplamente aguardado.

“À medida que os clientes adotam cada vez mais a IA, eles desejam implantar cargas de trabalho de IA em plataformas familiares,” afirmou Sagar Randive, Gerente de Produto para Google Cloud Serverless. “A eficiência e flexibilidade do Cloud Run são cruciais, e os usuários solicitaram suporte a GPUs.”

A Transição para um Ambiente de IA Serverless

O Cloud Run do Google, uma plataforma serverless totalmente gerida, conquistou popularidade entre os desenvolvedores pela facilidade de implantação e gerenciamento de contêineres. Com o crescimento das cargas de trabalho de IA—especialmente aquelas que requerem processamento em tempo real—tornou-se evidente a necessidade de recursos computacionais aprimorados.

A adição do suporte para GPUs abre diversas possibilidades para os desenvolvedores do Cloud Run, como:

- Inferência em tempo real com modelos leves como Gemma 2B/7B ou Llama 3 (8B), facilitando o desenvolvimento de chatbots responsivos e ferramentas dinâmicas de resumo de documentos.

- Modelos de IA generativa personalizados e ajustados, possibilitando aplicações escaláveis de geração de imagens adaptadas a marcas específicas.

- Tarefas intensivas em computação aceleradas, incluindo reconhecimento de imagens, transcodificação de vídeos e renderização 3D, que podem escalar para zero quando ociosas.

Considerações de Desempenho para Inferência de IA Serverless

Uma preocupação comum associada a arquiteturas serverless é o desempenho, especialmente com os tempos de inicialização a frio. O Google Cloud aborda essas preocupações fornecendo métricas impressionantes: os tempos de inicialização a frio para vários modelos, incluindo Gemma 2B, Gemma 2 9B, Llama 2 7B/13B e Llama 3.1 8B, variam de 11 a 35 segundos.

Cada instância do Cloud Run pode ser equipada com uma GPU Nvidia L4, fornecendo até 24GB de vRAM—adequado para a maioria das tarefas de inferência de IA. O Google Cloud visa manter a agnosticidade dos modelos, embora recomende o uso de modelos com menos de 13 bilhões de parâmetros para um desempenho ideal.

Eficiência de Custos da Inferência de IA Serverless

Uma vantagem significativa do modelo serverless é seu potencial para melhor utilização do hardware, o que pode resultar em economia. No entanto, se a inferência de IA serverless se mostrar mais barata do que servidores convencionais de longa duração depende da aplicação específica e dos padrões de trânsito esperados.

“Isso é nuançado,” explicou Randive. “Atualizaremos nosso calculador de preços para refletir a nova precificação de GPUs com o Cloud Run, permitindo que os clientes comparem seus custos operacionais totais em diferentes plataformas.”

Ao se adaptar a essa nova política serverless, as organizações podem otimizar suas estratégias de implantação de IA enquanto gerenciam os custos de forma eficaz.

Midjourney Lança Website para Todos os Usuários: Ganhe 25 Gerações de Imagens AI Grátis Hoje!

LambdaTest Lança KaneAI: Seu Agente Completo para Testes de Software Abrangentes

Most people like

Credibl ESG

15.3K

Revolucionando a Gestão de Dados ESG com Soluções de IA

Gerenciamento de Dados ESG AI Analytics Assistant

ListenMonster

37.4K

Transforme seu processo criativo com nossa plataforma de transcrição inovadora, projetada especialmente para criadores de conteúdo. Agilize seu fluxo de trabalho, melhore a acessibilidade e eleve seus projetos convertendo áudio e vídeo em texto preciso e pesquisável. Descubra as ferramentas necessárias para criar conteúdo envolvente de maneira simples.

transcrição AI Audio Enhancer

Dola:AI Calendar Assistant

927.8K

Otimize seu planejamento e aumente a produtividade com um assistente de calendário inteligente. Esta ferramenta inovadora simplifica o agendamento, gerenciando suas reuniões e lembretes de forma inteligente, garantindo que você nunca perca um encontro ou evento importante. Experimente o futuro da gestão do tempo e desbloqueie o potencial para um estilo de vida mais organizado e eficiente com o suporte da IA.

Assistente de calendário de IA AI Task Management

Voilà

194.7K

Apresentamos Voilà, seu assistente de navegação com IA, projetado para aumentar a produtividade e aprimorar a assistência virtual. Experimente um suporte contínuo que eleva suas tarefas online e otimiza seu fluxo de trabalho.

Assistente de IA ChatGPT Writing Assistants

Find AI tools in YBX