A Nvidia está prestes a aprimorar significativamente a implementação de modelos de linguagem de inteligência artificial generativa (LLMs) com uma abordagem inovadora para inferência rápida.
Durante o evento GTC da Nvidia, a gigante da tecnologia apresentou o Nvidia Inference Microservices (NIM), uma nova tecnologia de software que combina motores de inferência otimizados, APIs padrão do setor e suporte a modelos de IA em contêineres para uma implantação fluida. O NIM não apenas oferece modelos pré-configurados, mas também permite que as organizações integrem seus dados proprietários, acelerando a implementação de Geração Aumentada por Recuperação (RAG).
A introdução do NIM representa um avanço crucial na implementação de IA generativa, servindo como a espinha dorsal da estratégia de inferência de próxima geração da Nvidia, que impactará quase todos os desenvolvedores de modelos e plataformas de dados do setor. A Nvidia colaborou com grandes fornecedores de software, como SAP, Adobe, Cadence e CrowdStrike, além de diversos provedores de plataformas de dados, como BOX, Databricks e Snowflake, para apoiar o NIM.
O NIM faz parte do pacote de software NVIDIA Enterprise AI, que é lançado hoje na versão 5.0 durante o GTC. "O Nvidia NIM é o pacote de software e ambiente de execução líderes para desenvolvedores, permitindo que eles se concentrem em aplicativos empresariais", afirmou Manuvir Das, VP de Computação Empresarial na Nvidia.
O que é o Nvidia NIM?
No seu núcleo, o NIM é um contêiner repleto de microsserviços. Este contêiner pode hospedar vários modelos—desde abertos até proprietários—que podem operar em qualquer GPU Nvidia, tanto na nuvem quanto em máquinas locais. O NIM pode ser implantado onde as tecnologias de contêiner são suportadas, incluindo Kubernetes na nuvem, servidores Linux ou modelos sem servidor de Função como Serviço. A Nvidia planeja oferecer a abordagem de função sem servidor em seu novo site ai.nvidia.com, permitindo que os desenvolvedores comecem a trabalhar com o NIM antes da implantação.
É importante notar que o NIM não substitui os métodos de entrega de modelos existentes da Nvidia. Em vez disso, oferece um modelo altamente otimizado para GPUs Nvidia junto com tecnologias essenciais para aprimorar a inferência.
Durante a coletiva de imprensa, Kari Briski, VP de Gestão de Produtos de Software de IA Generativa, reafirmou o compromisso da Nvidia como uma empresa de plataforma. Ela destacou que ferramentas que suportam a inferência, como TensorRT e Triton Inference Server, continuam a ser vitais. "Reunir esses componentes para um ambiente de produção que execute IA generativa em escala requer expertise significativa, e é por isso que os agrupamos," explicou Briski.
NIMs para Potencializar Capacidades de RAG para Empresas
Uma aplicação chave para os NIMs está em facilitar a implementação de modelos RAG. "Quase todos os clientes com quem interagimos implementaram diversos RAGs," observou Das. "O desafio é a transição do protótipo para entregar valor comercial tangível em produção."
A Nvidia, junto a fornecedores de dados líderes, antecipa que os NIMs proporcionarão uma solução viável. As capacidades dos bancos de dados vetoriais são cruciais para viabilizar o RAG, e vários fornecedores—incluindo Apache Lucene, Datastax e Milvus—estão integrando suporte para NIMs. A abordagem RAG será ainda mais aprimorada com a integração de microsserviços NVIDIA NeMo Retriever nas implantações de NIM. Anunciado em novembro de 2023, o NeMo Retriever é projetado para otimizar a recuperação de dados para aplicações RAG. "Quando você incorpora um recuperador que é acelerado e treinado em conjuntos de dados de alta qualidade, o impacto é significativo," acrescentou Briski.