Jensen Huang, CEO de Nvidia, ofreció una conferencia magistral en Computex en Taiwán, centrándose en cómo los Microservicios de Inferencia de Nvidia (NIM) pueden transformar el despliegue de modelos de IA, reduciendo el tiempo de semanas a solo minutos.
Huang explicó que los 28 millones de desarrolladores en todo el mundo ahora pueden descargar Nvidia NIM, que proporciona modelos de IA optimizados como contenedores para su despliegue en nubes, centros de datos o estaciones de trabajo. Esta tecnología permite a los usuarios crear rápidamente aplicaciones de IA generativa —como copilotos y chatbots— aumentando significativamente la productividad.
A medida que las aplicaciones de IA se vuelven más complejas y dependen de múltiples modelos para generar texto, imágenes, videos y voz, Nvidia NIM simplifica la integración de la IA generativa en aplicaciones existentes. Esta eficiencia se extiende a las empresas, permitiéndoles maximizar sus inversiones en infraestructura. Por ejemplo, ejecutar el modelo Meta Llama 3-8B en NIM puede generar hasta tres veces más tokens de IA generativa que sin él, mejorando la producción sin costos computacionales adicionales.
Cerca de 200 socios tecnológicos, incluyendo Cadence, Cloudera y DataStax, han integrado NIM en sus plataformas para acelerar el despliegue de IA generativa en aplicaciones especializadas. Hugging Face también ofrece NIM, comenzando con el modelo Meta Llama 3.
“Cada empresa busca incorporar IA generativa, pero no todas cuentan con equipos de investigación dedicados”, comentó Huang. “Nvidia NIM está haciendo que la IA generativa sea accesible para todas las organizaciones al estar integrada en plataformas en todas partes.”
NIM facilita el despliegue de aplicaciones de IA a través de la plataforma de software Nvidia AI Enterprise. A partir del próximo mes, los miembros del Programa de Desarrolladores de Nvidia podrán acceder a NIM de forma gratuita para investigación y pruebas en infraestructuras preferidas.
NIM incluye más de 40 microservicios que atienden diversas industrias, como la salud. Los contenedores NIM están preconstruidos para inferencia acelerada por GPU y pueden incorporar el software CUDA, Triton Inference Server y TensorRT-LLM de Nvidia.
Los desarrolladores pueden acceder a los microservicios de Nvidia NIM para Meta Llama 3 a través de la plataforma de Hugging Face, lo que permite un despliegue sencillo de modelos Llama 3. Las empresas pueden aprovechar NIM para generar texto, imágenes, video y voz, e incluso para crear humanos digitales. Además, los microservicios Nvidia BioNeMo NIM ayudan a los investigadores a innovar nuevas estructuras de proteínas para acelerar el descubrimiento de fármacos.
Numerosas organizaciones de salud están utilizando NIM para diversas aplicaciones, incluyendo la planificación quirúrgica y la optimización de ensayos clínicos.
Proveedores líderes de tecnología como Canonical, Red Hat y VMware están respaldando NIM en KServe de código abierto, mientras que empresas de IA como Hippocratic AI y Glean están integrando NIM para la inferencia de IA generativa. Firmas de consultoría global, incluidas Accenture y Deloitte, están desarrollando competencias en NIM para ayudar a las empresas a implementar estrategias de IA rápidamente.
Las aplicaciones habilitadas con NIM se pueden desplegar en sistemas certificados por Nvidia, incluyendo aquellos de Cisco, Dell Technologies y otros grandes fabricantes, así como en plataformas en la nube como AWS y Google Cloud. Compañías notables como Foxconn y Lowe's ya están utilizando NIM en áreas como la fabricación y la salud.
Nvidia está ampliando su programa de sistemas certificados, asegurando que las plataformas estén optimizadas para IA y computación acelerada. Las nuevas certificaciones incluyen sistemas Spectrum-X Ready para centros de datos y sistemas IGX para computación en el borde, ambos validados para un rendimiento a nivel empresarial.
A través de NIM, empresas de todo el mundo están estableciendo "fábricas de IA" para agilizar el procesamiento de datos y mejorar la producción de inteligencia. Nvidia NIM, combinado con KServe, simplificará los despliegues de IA generativa, haciéndola accesible a través de plataformas de socios como Canonical y Nutanix.
Además, Huang destacó que Meta Llama 3, un modelo de lenguaje grande de última generación entrenado con la computación acelerada de Nvidia, está mejorando significativamente los flujos de trabajo en salud y ciencias de la vida. Ya disponible como un microservicio de inferencia Nvidia NIM en ai.nvidia.com, Llama 3 proporciona a los desarrolladores las herramientas necesarias para innovar de manera responsable en diversas aplicaciones, incluyendo la planificación quirúrgica y el descubrimiento de fármacos.