Qu'est-ce qu'un NIM ? Découvrez comment Nvidia Inference Microservices révolutionne le déploiement des modèles d'IA dans l'industrie.

Nvidia s'apprête à transformer le déploiement des modèles de langage génératifs (LLMs) grâce à une approche révolutionnaire pour une inférence rapide. Lors de l'événement GTC de Nvidia aujourd'hui, le géant de la technologie a présenté les Microservices d'Inférence Nvidia (NIM), une technologie logicielle qui regroupe des moteurs d'inférence optimisés, des API standard et un support pour les modèles d'IA dans des conteneurs pour un déploiement fluide. NIM propose non seulement des modèles préconstruits, mais permet également aux organisations d'intégrer leurs données propriétaires et d'accélérer le déploiement de la génération augmentée par récupération (RAG).

L'introduction de NIM marque une avancée majeure dans le déploiement de l'IA générative, formant le socle de la stratégie d'inférence de nouvelle génération de Nvidia, qui touchera presque tous les développeurs de modèles et plateformes de données de l'industrie. Nvidia a collaboré avec des grands noms du logiciel tels que SAP, Adobe, Cadence et CrowdStrike, ainsi qu'avec divers fournisseurs de plateformes de données comme BOX, Databricks et Snowflake pour soutenir NIM.

NIM fait partie de la suite logicielle d'IA d'entreprise de NVIDIA, lancée aujourd'hui en version 5.0 à GTC. "Nvidia NIM est le principal package logiciel et environnement d'exécution pour les développeurs, leur permettant de se concentrer sur les applications d'entreprise," a déclaré Manuvir Das, VP de l'informatique d'entreprise chez Nvidia.

Qu'est-ce que Nvidia NIM ?

Au cœur de NIM se trouve un conteneur rempli de microservices. Ce conteneur peut héberger divers modèles—ouverts ou propriétaires—fonctionnant sur n'importe quel GPU Nvidia, que ce soit dans le cloud ou sur une machine locale. NIM peut être déployé partout où les technologies de conteneurs sont supportées, y compris Kubernetes dans le cloud, serveurs Linux ou modèles serverless Function-as-a-Service. Nvidia prévoit de proposer l'approche sans serveur sur son nouveau site ai.nvidia.com, permettant aux développeurs de commencer à travailler avec NIM avant le déploiement.

Il est important de noter que NIM ne remplace pas les méthodes de livraison de modèles existantes de Nvidia. Au contraire, il fournit un modèle hautement optimisé pour les GPU Nvidia, ainsi que des technologies essentielles pour améliorer l'inférence. Lors de la conférence de presse, Kari Briski, VP de la gestion des produits logiciels d'IA générative, a réaffirmé l'engagement de Nvidia en tant qu'entreprise de plateforme, soulignant que des outils comme TensorRT et Triton Inference Server restent cruciaux.

"Rassembler ces composants pour un environnement de production capable d’exécuter l’IA générative à grande échelle demande une expertise significative, c’est pourquoi nous les avons regroupés," a expliqué Briski.

NIM pour Améliorer les Capacités RAG des Entreprises

Une application clé des NIM réside dans la facilitation des modèles de déploiement RAG. "Pratiquement tous nos clients ont implémenté de nombreux RAG," a remarqué Das. "Le défi est de passer du prototypage à la livraison de valeur commerciale tangible en production."

Nvidia, en collaboration avec des fournisseurs de données leaders, s'attend à ce que les NIM offrent une solution viable. Les capacités de base de données vectorielle sont cruciales pour activer RAG, et plusieurs fournisseurs—comme Apache Lucene, Datastax et Milvus—intègrent le support pour les NIM.

L'approche RAG sera également renforcée par l'intégration des microservices Nvidia NeMo Retriever dans les déploiements NIM. Annoncé en novembre 2023, NeMo Retriever est conçu pour optimiser la récupération de données pour les applications RAG. "Lorsque vous intégrez un outil de récupération à la fois accéléré et entraîné sur des ensembles de données de haute qualité, l'impact est significatif," a ajouté Briski.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles