Google améliore son hyperordinateur d'IA pour les applications d'entreprise lors de Cloud Next.

En décembre 2023, Google a présenté son « AI Hypercomputer », une architecture de superordinateur innovante qui intègre du matériel optimisé pour la performance, des logiciels ouverts, des frameworks de machine learning de pointe et des modèles de consommation flexibles. Cette initiative vise à améliorer l'efficacité et la productivité dans la formation, l'ajustement et le déploiement de l'IA pour les clients de Google Cloud, en concurrence avec Microsoft et Amazon pour conquérir le marché des entreprises.

Les clients de Google Cloud peuvent accéder à cet AI Hypercomputer virtuellement, leur permettant de former leurs propres modèles et applications d'IA. Des clients notables, tels que Salesforce et Lightricks, ont déjà tiré parti du TPU v5p de Google Cloud pour entraîner de grands modèles d'IA.

Lors de la conférence annuelle Google Cloud Next 2024 à Las Vegas, Google a présenté des améliorations significatives de son AI Hypercomputer, mettant en avant l'augmentation du nombre de clients prestigieux utilisant la plateforme.

Améliorations de l'AI Hypercomputer de Google Cloud

La première mise à niveau majeure concerne la disponibilité du Tensor Processing Unit (TPU) v5p de Google Cloud, son accélérateur d'IA le plus puissant, évolutif et flexible. De plus, Google améliore sa famille de machines virtuelles A3, lançant des configurations A3 Mega alimentées par des GPU NVIDIA H100 Tensor Core, prévues pour mai. Les VM A3 Mega utiliseront ces GPU avancés, chacun contenant 80 milliards de transistors.

Google prévoit également d'intégrer les derniers GPU Blackwell de Nvidia, renforçant ainsi le support pour le calcul haute performance (HPC) et les charges de travail IA. Cela inclut des machines virtuelles comprenant des GPU Nvidia HGX B200 et GB200 NVL72, conçus spécifiquement pour des tâches d'IA et d'analytique de données exigeantes. Les GPU GB200 NVL72, refroidis par liquide, fourniront des inférences LLM en temps réel et prennent en charge la formation à grande échelle pour des modèles de trillion de paramètres.

Bien que les modèles d'IA de trillion de paramètres soient encore émergents—comme SambaNova et le Switch Transformer de Google—les fabricants de puces tels que Nvidia et Cerebras s'affrontent pour développer du matériel adapté à ces tailles de modèles croissantes.

Des clients notables de Google Cloud, comme Character.AI, une entreprise de chatbot valorisée à plus d'un milliard de dollars, bénéficient déjà de l'architecture A3 actuelle. Le PDG Noam Shazeer a souligné que l'utilisation des TPU et des VM A3 de Google Cloud permet un entraînement et une inférence plus rapides et efficaces des grands modèles de langage (LLM), avec un potentiel de performance coût-efficace multiplié par plus de 2.

Introduction de JetStream pour de meilleures performances IA

Du côté logiciel, Google Cloud a lancé JetStream, un moteur d'inférence optimisé pour les grands modèles de langage. Cet outil améliore la performance économique sur les modèles ouverts et prend en charge des frameworks tels que JAX et PyTorch/XLA, augmentant l'efficacité tout en réduisant les coûts.

Solutions de stockage améliorées pour les charges de travail IA

Les solutions de stockage de Google reçoivent également des améliorations. L'introduction de fonctionnalités de mise en cache rapprochera les données des instances de calcul, accélérant l'entraînement de l'IA, optimisant l'efficacité des GPU et des TPU, et améliorant la rentabilité énergétique. Hyperdisk ML, un nouveau service de stockage par blocs, optimise les flux de travail d'inférence et de service d'IA, offrant des temps de chargement de modèles jusqu'à 12 fois plus rapides.

Parmi les autres améliorations, on trouve Cloud Storage FUSE, qui augmente le débit d'entraînement de 2,9 fois, et Parallelstore, qui permet une mise en cache accélérant les vitesses d'entraînement jusqu'à 3,9 fois par rapport aux chargeurs de données traditionnels. Le système Filestore permet un accès simultané aux données à travers GPU et TPU, améliorant les temps d'entraînement jusqu'à 56 %.

Collaborations et mises à niveau logicielles

Google favorise également de nouvelles collaborations et introduit des mises en œuvre évolutives pour les modèles de diffusion et de langage basés sur JAX. Le support du code open-source de PyTorch/XLA 2.3 améliorera l'évolutivité de l'entraînement distribué grâce à des fonctionnalités comme le partitionnement automatique et le contrôle instantané asynchrone.

En partenariat avec Hugging Face, l'Optimum-TPU de Google Cloud permet aux clients d'optimiser l'entraînement et le service des modèles d'IA sur les TPU de Google. Par ailleurs, Google proposera des microservices d'inférence NVIDIA NIM, offrant aux développeurs des options flexibles pour l'entraînement et le déploiement d'IA.

Pour faciliter l'utilisation, Google Cloud introduit un Planificateur de charge de travail dynamique, permettant aux clients de réserver des GPU pour des intervalles de 14 jours, optimisant ainsi les coûts pour les charges de travail d'IA.

Ces mises à jour illustrent les avantages commerciaux pratiques découlant des recherches et des solutions innovantes de Google, créant un environnement intégré, efficace et évolutif pour l'entraînement et l'inférence de l'IA.

Concernant les prix des offres de l'AI Hypercomputer, les détails demeurent non divulgués. Il sera essentiel de suivre comment cette plateforme se positionne par rapport à Microsoft Azure et AWS pour le développement d'IA en entreprise et si Google peut maintenir son engagement à améliorer et soutenir l'AI Hypercomputer de manière extensive.

Most people like

Find AI tools in YBX