Nvidia lance le service AI Foundry sur Microsoft Azure avec les nouveaux modèles Nemotron-3 8B.

Nvidia renforce sa stratégie de co-vente avec Microsoft en lançant un service de fonderie IA destiné à aider les entreprises et les startups à créer des applications IA sur le cloud Azure. Ce service exploitera les données d'entreprise grâce à la génération augmentée par récupération (RAG).

« Le service de fonderie IA de Nvidia intègre nos technologies d’IA générative, notre expertise en formation de LLM et nos vastes capacités de fabrication d'IA, basées sur Microsoft Azure. Cela permet aux entreprises du monde entier de connecter leurs modèles personnalisés avec les services cloud de premier ordre de Microsoft », a déclaré Jensen Huang, fondateur et PDG de Nvidia.

Caractéristiques Clés du Service de Fonderie IA de Nvidia sur Azure

Avec le service de fonderie IA de Nvidia sur Azure, les entreprises disposeront de tous les composants nécessaires pour développer des applications IA génératives sur mesure, concentrés en un seul endroit. Cette offre globale comprend les modèles de fondation IA de Nvidia, le cadre NeMo et l'accès aux ressources de supercalcul DGX Cloud de Nvidia.

« Pour la première fois, les entreprises peuvent accéder à l'ensemble des composants nécessaires — du matériel au logiciel — de bout en bout sur Microsoft Azure. Les clients peuvent exécuter l'intégralité du flux de travail IA générative avec Nvidia de manière transparente via Azure », a déclaré Manuvir Das, vice-président de l'informatique d’entreprise chez Nvidia.

Pour élargir les options, Nvidia introduit une nouvelle gamme de modèles Nemotron-3 8B conçus pour des applications avancées de chat et de questions-réponses dans des secteurs tels que la santé, les télécommunications et la finance. Ces modèles, dotés de capacités multilingues, seront disponibles via le catalogue de modèles IA Azure ainsi que sur Hugging Face et le catalogue NGC de Nvidia.

D'autres modèles de fondation de Nvidia, qui s'intégreront également à Azure, incluent Llama 2, Stable Diffusion XL et Mistral 7b. Une fois que les utilisateurs auront choisi leur modèle préféré, ils pourront poursuivre les phases de formation et de déploiement pour des applications personnalisées en utilisant Nvidia DGX Cloud et le logiciel AI Enterprise via le marketplace Azure. DGX Cloud propose des instances évolutives utilisant jusqu'à des milliers de GPU NVIDIA Tensor Core pour la formation et comprend une boîte à outils AI Enterprise pour faciliter la personnalisation des LLM.

Partenariat avec Oracle et Adoption Précoce

Nvidia a également établi un partenariat avec Oracle, permettant aux entreprises éligibles d'acheter des outils via le marketplace Oracle Cloud pour la formation de modèles sur Oracle Cloud Infrastructure (OCI). Les premiers adopteurs du service de fonderie sur Azure incluent SAP, Amdocs et Getty Images, qui développent des applications IA personnalisées pour divers cas d'utilisation.

Partenariat Élargi entre Nvidia et Microsoft

En plus du service d'IA générative, Microsoft a annoncé l'introduction de nouvelles machines virtuelles NC H100 v5 pour Azure. Ces instances cloud innovantes disposent de doubles GPU H100 basés sur PCIe, connectés via Nvidia NVLink, offrant près de quatre pétaflops de capacité de calcul IA et 188 Go de mémoire HBM3 à haute vitesse.

Le GPU Nvidia H100 NVL est conçu pour atteindre jusqu'à 12 fois de meilleures performances sur GPT-3 175B par rapport aux modèles précédents, le rendant idéal pour les tâches d'inférence et de formation standards. De plus, Nvidia prévoit d'incorporer le nouveau GPU H200 Tensor Core dans Azure l'année prochaine, offrant 141 Go de mémoire HBM3e et 4,8 To/s de bande passante mémoire de pointe, adapté aux charges de travail IA étendues.

Mises à Jour pour l'IA sur les Appareils Windows

Pour améliorer les opérations LLM sur les appareils Windows, Nvidia a également révélé plusieurs mises à jour, y compris TensorRT LLM pour Windows, qui prendra en charge de nouveaux modèles de langage comme Mistral 7B et Nemotron-3 8B. Prévue pour une sortie plus tard ce mois-ci, cette mise à jour promet des performances d'inférence cinq fois plus rapides, permettant une meilleure exécution des modèles sur des ordinateurs de bureau et des ordinateurs portables dotés de GPU GeForce RTX 30 et 40, avec un minimum de 8 Go de RAM.

De plus, TensorRT-LLM sera compatible avec l'API Chat d'OpenAI via une nouvelle interface, permettant à de nombreux projets de développeurs de s'exécuter localement sur des PC Windows 11 avec RTX, éliminant ainsi la dépendance au cloud.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles