Nvidia está mejorando su estrategia de co-venta con Microsoft al lanzar un servicio de fundición de IA diseñado para ayudar a empresas y startups a crear aplicaciones de IA personalizadas en la nube de Azure. Este servicio aprovechará los datos empresariales a través de la generación aumentada por recuperación (RAG).
“El servicio de fundición de IA de Nvidia integra nuestras tecnologías de IA generativa, nuestra experiencia en entrenamiento de LLM y nuestras amplias capacidades de fábrica de IA, todo construido sobre Microsoft Azure. Esto permite a las empresas en todo el mundo conectar sus modelos personalizados con los servicios en la nube de primer nivel de Microsoft”, afirmó Jensen Huang, fundador y director ejecutivo de Nvidia.
Características Clave del Servicio de Fundición de IA de Nvidia en Azure
Con el servicio de fundición de IA de Nvidia en Azure, las empresas tendrán todos los componentes necesarios para desarrollar aplicaciones de IA generativa personalizadas y enfocadas en el ámbito empresarial en un solo lugar. Esta oferta integral incluye los modelos de fundación de IA de Nvidia, el marco NeMo y acceso a los recursos de supercomputación en la nube DGX de Nvidia.
“Por primera vez, las empresas pueden acceder a todo el espectro de componentes requeridos—desde hardware hasta software—de forma integral en Microsoft Azure. Los clientes pueden ejecutar todo el flujo de trabajo de IA generativa de manera fluida a través de Nvidia en Azure”, dijo Manuvir Das, VP de computación empresarial en Nvidia.
Para ampliar las opciones para las empresas, Nvidia está introduciendo una nueva gama de modelos Nemotron-3 8B diseñados para aplicaciones avanzadas de chat y preguntas y respuestas en sectores como la salud, las telecomunicaciones y las finanzas. Estos modelos contarán con capacidades multilingües y estarán disponibles en el catálogo de modelos de Azure AI, así como en Hugging Face y el catálogo NGC de Nvidia.
Otros modelos fundamentales del catálogo de Nvidia, que también se integrarán con Azure, incluyen Llama 2, Stable Diffusion XL y Mistral 7b. Una vez que los usuarios seleccionen su modelo preferido, podrán avanzar a las fases de entrenamiento y despliegue para aplicaciones personalizadas utilizando Nvidia DGX Cloud y software de AI Enterprise a través del mercado de Azure. DGX Cloud ofrece instancias escalables que utilizan hasta miles de GPUs NVIDIA Tensor Core para el entrenamiento y cuenta con un conjunto de herramientas de AI Enterprise para agilizar la personalización de LLM.
Asociación con Oracle y Adopción Temprana
Nvidia también se ha asociado con Oracle, permitiendo a las empresas elegibles adquirir herramientas del mercado de Oracle Cloud para el entrenamiento de modelos en Oracle Cloud Infrastructure (OCI). Los actuales adoptantes tempranos del servicio de fundición en Azure incluyen a SAP, Amdocs y Getty Images, que están desarrollando aplicaciones de IA personalizadas para diversos casos de uso.
Expansión de la Asociación entre Nvidia y Microsoft
Además del servicio de IA generativa, Microsoft ha anunciado la introducción de nuevas máquinas virtuales NC H100 v5 para Azure. Estas innovadoras instancias en la nube cuentan con dos GPUs H100 basadas en PCIe conectadas a través de Nvidia NVLink, ofreciendo casi cuatro petaflops de capacidad de computación en IA y 188GB de memoria HBM3 de alta velocidad.
La GPU Nvidia H100 NVL está diseñada para alcanzar hasta 12 veces mejor rendimiento en GPT-3 175B en comparación con modelos anteriores, lo que la convierte en una opción ideal tanto para inferencias como para tareas de entrenamiento convencionales. Además, Nvidia planea incorporar la nueva GPU H200 Tensor Core en Azure el próximo año, ofreciendo 141GB de memoria HBM3e y un ancho de banda de memoria de 4.8 TB/s, adaptada para cargas de trabajo extensas de IA.
Actualizaciones para IA en Dispositivos Windows
Para mejorar las operaciones de LLM en dispositivos Windows, Nvidia también reveló varias actualizaciones, incluida TensorRT LLM para Windows, que soportará nuevos modelos de lenguaje grande como Mistral 7B y Nemotron-3 8B. Programada para lanzarse a finales de este mes, esta actualización promete un rendimiento de inferencia cinco veces más rápido, permitiendo una mejor ejecución de modelos en desktops y laptops equipadas con GPUs GeForce RTX de las series 30 y 40, con un mínimo de 8GB de RAM.
Además, TensorRT-LLM será compatible con la API de Chat de OpenAI a través de un nuevo envoltorio, permitiendo que numerosos proyectos de desarrolladores se ejecuten localmente en PCs con Windows 11 y RTX, eliminando la necesidad de depender de la nube.