Jensen Huang, CEO da Nvidia, proferiu uma palestra de abertura na Computex em Taiwan, destacando como os Microserviços de Inferência Nvidia (NIM) podem transformar a implantação de modelos de IA, reduzindo o tempo de semanas para apenas minutos.
Huang explicou que os 28 milhões de desenvolvedores em todo o mundo agora podem baixar o Nvidia NIM, que oferece modelos de IA otimizados como contêineres para implantação em nuvens, data centers ou estações de trabalho. Essa tecnologia permite que os usuários criem rapidamente aplicações de IA generativa — como copilotos e chatbots — aumentando significativamente a produtividade.
À medida que as aplicações de IA se tornam mais complexas e dependem de múltiplos modelos para gerar texto, imagens, vídeo e áudio, o Nvidia NIM facilita a integração da IA generativa em aplicações existentes. Isso se estende às empresas, permitindo que maximizem investimentos em infraestrutura. Por exemplo, executar o modelo Meta Llama 3-8B no NIM pode gerar até três vezes mais tokens de IA generativa do que sem ele, melhorando a produção sem custos computacionais adicionais.
Quase 200 parceiros tecnológicos, incluindo Cadence, Cloudera e DataStax, integraram o NIM em suas plataformas para acelerar a implantação de IA generativa em aplicações especializadas. A Hugging Face agora também oferece o NIM, começando com o modelo Meta Llama 3.
“Cada empresa busca incorporar IA generativa, mas nem todas contam com equipes de pesquisa dedicadas em IA,” disse Huang. “O Nvidia NIM torna a IA generativa acessível a todas as organizações, sendo integrado em plataformas em todo lugar.”
O NIM facilita a implantação de aplicações de IA por meio da plataforma de software Nvidia AI Enterprise. A partir do próximo mês, membros do Programa de Desenvolvedores da Nvidia poderão acessar o NIM gratuitamente para pesquisa e testes nas infraestruturas preferidas.
O NIM inclui mais de 40 microserviços que atendem a diversas indústrias, como saúde. Os contêineres NIM são pré-configurados para inferência acelerada por GPU e podem incorporar software como CUDA, Triton Inference Server e TensorRT-LLM da Nvidia.
Os desenvolvedores podem acessar os microserviços Nvidia NIM para o Meta Llama 3 através da plataforma Hugging Face, permitindo a implantação fácil dos modelos Llama 3 com apenas alguns cliques. As empresas podem aproveitar o NIM para gerar texto, imagens, vídeos, áudio e até criar humanos digitais. Além disso, os microserviços Nvidia BioNeMo NIM ajudam pesquisadores a inovar novas estruturas proteicas para acelerar a descoberta de medicamentos.
Numerosas organizações de saúde estão utilizando o NIM para diversas aplicações, incluindo planejamento cirúrgico e otimização de ensaios clínicos. Provedores de tecnologia líderes como Canonical, Red Hat e VMware estão apoiando o NIM na KServe de código aberto, enquanto empresas de IA, como Hippocratic AI e Glean, estão integrando o NIM para inferência de IA generativa. Grandes firmas de consultoria globais, incluindo Accenture e Deloitte, estão desenvolvendo competências em NIM para ajudar as empresas a lançarem estratégias de IA rapidamente.
As aplicações habilitadas pelo NIM podem ser implantadas em sistemas certificados pela Nvidia, incluindo os da Cisco, Dell Technologies e outros grandes fabricantes, além de plataformas de nuvem como AWS e Google Cloud. Empresas notáveis, como Foxconn e Lowe’s, já estão aplicando o NIM em setores como manufatura e saúde.
A Nvidia está expandindo seu programa de sistemas certificados, garantindo que as plataformas sejam otimizadas para IA e computação acelerada. Novas certificações incluem sistemas Spectrum-X Ready para data centers e sistemas IGX para computação de borda, ambos validados para desempenho de nível empresarial.
Com o NIM, empresas em todo o mundo estão estabelecendo “fábricas de IA” para otimizar o processamento de dados e melhorar a produção de inteligência. O Nvidia NIM, combinado com o KServe, simplificará as implantações de IA generativa, tornando-as acessíveis por meio de plataformas de parceiros como Canonical e Nutanix.
Além disso, Huang destacou que o Meta Llama 3, um modelo de linguagem de ponta treinado com a computação acelerada da Nvidia, está melhorando significativamente os fluxos de trabalho em saúde e ciências da vida. Agora disponível como um microserviço de inferência Nvidia NIM em ai.nvidia.com, o Llama 3 oferece aos desenvolvedores as ferramentas necessárias para inovar de forma responsável em diversas aplicações, incluindo planejamento cirúrgico e descoberta de medicamentos.