Nvidia está a punto de mejorar significativamente la implementación de modelos de lenguaje grandes generativos (LLMs) mediante un enfoque innovador para la inferencia rápida. Durante el evento GTC de Nvidia, la empresa presentó Nvidia Inference Microservices (NIM), una tecnología de software que agrupa motores de inferencia optimizados, APIs estándar de la industria y soporte para modelos de IA en contenedores, facilitando así su implementación. NIM no solo ofrece modelos preconstruidos, sino que también permite a las organizaciones incorporar sus datos propietarios y acelera la implementación de la Generación Aumentada por Recuperación (RAG).
La introducción de NIM representa un avance crucial en la implementación de IA generativa, formando la base de la estrategia de inferencia de próxima generación de Nvidia, que impactará a casi todos los desarrolladores de modelos y plataformas de datos en la industria. Nvidia ha colaborado con importantes proveedores de software como SAP, Adobe, Cadence y CrowdStrike, así como con varios proveedores de plataformas de datos como BOX, Databricks y Snowflake para respaldar NIM.
NIM forma parte de la suite de software NVIDIA Enterprise AI, que se lanza hoy en su versión 5.0 en el evento GTC. “Nvidia NIM es el paquete de software y entorno de ejecución líder para desarrolladores, permitiéndoles concentrarse en aplicaciones empresariales,” afirmó Manuvir Das, VP de Computing Empresarial en Nvidia.
¿Qué es Nvidia NIM?
En esencia, NIM es un contenedor lleno de microservicios. Este contenedor puede alojar varios modelos—desde modelos abiertos hasta propietarios—que pueden operar en cualquier GPU de Nvidia, ya sea en la nube o en una máquina local. NIM se puede desplegar donde se apoyen tecnologías de contenedores, incluyendo Kubernetes en la nube, servidores Linux o modelos sin servidor Function-as-a-Service. Nvidia planea ofrecer el enfoque de funciones sin servidor en su nuevo sitio web ai.nvidia.com, permitiendo a los desarrolladores comenzar a trabajar con NIM antes de su despliegue.
Es importante destacar que NIM no reemplaza los métodos existentes de entrega de modelos de Nvidia. En su lugar, ofrece un modelo altamente optimizado para GPUs de Nvidia, junto con tecnologías esenciales para mejorar la inferencia.
Durante la conferencia de prensa, Kari Briski, VP de Gestión de Productos de Software de IA Generativa, reafirmó el compromiso de Nvidia como empresa de plataforma, subrayando que herramientas que apoyan la inferencia, como TensorRT y Triton Inference Server, siguen siendo vitales. “Reunir estos componentes para un entorno de producción que ejecute IA generativa a gran escala requiere una experiencia significativa, por eso los hemos empaquetado juntos,” explicó Briski.
NIMs para Mejorar las Capacidades de RAG para Empresas
Una aplicación clave de NIMs se centra en facilitar los modelos de implementación de RAG. “Casi todos los clientes con los que hemos trabajado han implementado múltiples RAGs,” observó Das. “El desafío es pasar de la creación de prototipos a ofrecer valor comercial tangible en producción.”
Nvidia, junto con principales proveedores de datos, anticipa que NIMs ofrecerán una solución viable. Las capacidades de bases de datos vectoriales son cruciales para habilitar RAG, y varios proveedores—incluyendo Apache Lucene, Datastax y Milvus—están integrando soporte para NIMs.
El enfoque de RAG se verá aún más potenciado mediante la integración de microservicios NVIDIA NeMo Retriever dentro de las implementaciones de NIM. Anunciado en noviembre de 2023, NeMo Retriever está diseñado para optimizar la recuperación de datos para aplicaciones RAG. “Cuando incorporas un recuperador que está acelerado y entrenado con conjuntos de datos de alta calidad, el impacto es significativo,” agregó Briski.