Google verbessert KI-Hypercomputer für Unternehmensanwendungen auf der Cloud Next

Im Dezember 2023 stellte Google seinen "AI Hypercomputer" vor, eine wegweisende Supercomputer-Architektur, die leistungsoptimierte Hardware, offene Software, führende Frameworks für maschinelles Lernen und flexible Nutzungsmöglichkeiten integriert. Diese Initiative zielt darauf ab, die Effizienz und Produktivität im Bereich des AI-Trainings, der Feinabstimmung und des Betriebs für Google Cloud-Kunden zu steigern und somit im Wettbewerb mit Microsoft und Amazon um Marktanteile im Unternehmensbereich zu bestehen.

Google Cloud-Kunden können diesen AI Hypercomputer virtuell nutzen, um eigene AI-Modelle und Anwendungen zu trainieren. Bemerkenswerte Kunden wie Salesforce und Lightricks haben bereits erfolgreich die TPU v5p des Google Cloud AI Hypercomputers für das Training großer AI-Modelle eingesetzt.

Auf der Google Cloud Next 2024, der jährlichen Konferenz in Las Vegas, präsentierte Google bedeutende Verbesserungen seines AI Hypercomputers und berichtete von einem Anstieg hochkarätiger Kunden, die die Plattform nutzen.

Verbesserungen des Google Cloud AI Hypercomputers

Ein wesentliches Update ist die Verfügbarkeit von Google Cloud's Tensor Processing Unit (TPU) v5p—dem leistungsstärksten, skalierbaren und flexiblen AI-Beschleuniger. Zudem wird die A3-VM-Familie erweitert, indem A3 Mega-Konfigurationen mit NVIDIA H100 Tensor Core GPUs eingeführt werden, die im Mai auf den Markt kommen sollen. Diese A3 Mega VMs nutzen fortschrittliche GPUs mit jeweils 80 Milliarden Transistoren.

Darüber hinaus plant Google die Integration von Nvidias neuesten Blackwell GPUs, um die Unterstützung von Hochleistungsrechnen (HPC) und AI-Workloads zu verbessern. Dazu gehören virtuelle Maschinen mit Nvidia HGX B200 und GB200 NVL72 GPUs, die speziell für anspruchsvolle AI- und Datenanalyse-Aufgaben entwickelt wurden. Die flüssigkeitsgekühlten GB200 NVL72 GPUs bieten Echtzeit-Inferenz für große Sprachmodelle (LLMs) und unterstützen das großangelegte Training von Billionen-Parameter-Modellen.

Obwohl Billionen-Parameter-AI-Modelle noch in der Entwicklung sind – wie SambaNova und Google’s Switch Transformer – kämpfen Chip-Hersteller wie Nvidia und Cerebras darum, Hardware für diese wachsenden Modellgrößen zu entwickeln.

Wichtige Google Cloud-Kunden wie Character.AI, ein Chatbot-Unternehmen mit einem Wert von über 1 Milliarde Dollar, profitieren bereits von der aktuellen A3-Konfiguration. CEO Noam Shazeer betonte, dass die Nutzung von Google Clouds TPUs und A3 VMs ein schnelleres und effizienteres Training sowie eine Inferenz großer Sprachmodelle ermöglicht. Er wies auf das Potenzial für über 2X kosteneffiziente Leistung der neuen Plattformgeneration hin.

Einführung von JetStream zur Verbesserung der AI-Leistung

Auf der Softwareseite hat Google Cloud JetStream gestartet, eine Inferenz-Engine, die für große Sprachmodelle optimiert ist. Dieses Tool steigert die Leistung pro Dollar bei offenen Modellen und unterstützt Frameworks wie JAX und PyTorch/XLA, wodurch die Effizienz verbessert und die Kosten gesenkt werden.

Verbesserte Speicherlösungen für AI-Workloads

Auch die Speicherlösungen von Google werden optimiert. Die Einführung von Caching-Funktionen positioniert Daten näher an Recheninstanzen, was das AI-Training beschleunigt, die Effizienz von GPUs und TPUs optimiert und die Energieeffizienz erhöht. Besonders hervorzuheben ist Hyperdisk ML, ein neuer Blockspeicherdienst, der die AI-Inferenz und -Betriebsabläufe um bis zu 12X schnellere Modell-Ladezeiten verbessert.

Zusätzliche Upgrades umfassen Cloud Storage FUSE, das die Trainingsdurchsatzrate um 2,9X erhöht, und Parallelstore, das Caching ermöglicht und die Trainingsgeschwindigkeit um bis zu 3,9X im Vergleich zu herkömmlichen Datenladeverfahren beschleunigt. Das Filestore-System ermöglicht den gleichzeitigen Datenzugriff über GPUs und TPUs und verbessert die Trainingszeiten um bis zu 56%.

Kooperationen und Software-Upgrades

Google fördert auch neue Kooperationen und führt skalierbare Implementierungen für Diffusions- und Sprachmodelle ein, die auf JAX basieren. Die Unterstützung für den Open-Source-Code von PyTorch/XLA 2.3 wird die Skalierbarkeit des verteilten Trainings durch Funktionen wie Auto-Sharding und asynchrone Checkpoints verbessern.

In Zusammenarbeit mit Hugging Face ermöglicht Google Cloud’s Optimum-TPU den Kunden, das Training und den Betrieb von AI-Modellen auf Googles TPUs zu optimieren. Darüber hinaus wird Google NVIDIA NIM-Inferenz-Microservices anbieten, um Entwicklern flexible Optionen für das AI-Training und die Bereitstellung zu bieten.

Um die Nutzung zu erleichtern, führt Google Cloud einen Dynamic Workload Scheduler ein, der es Kunden ermöglicht, GPUs für 14-Tage-Intervalle zu reservieren und Kosten für AI-Workloads zu optimieren.

Diese Updates verdeutlichen die praktischen Geschäftsvorteile, die aus Googles Forschung und innovativen Lösungen resultieren, und schaffen eine integrierte, effiziente und skalierbare Umgebung für AI-Training und -Inferenz.

Details zu den Preisen der AI Hypercomputer-Angebote sind noch nicht bekanntgegeben worden. Es bleibt abzuwarten, wie diese Plattform im Wettbewerb mit Microsoft Azure und AWS für die Entwicklung von Unternehmens-AI bestehen kann und ob Google sein Engagement zur Verbesserung und umfassenden Unterstützung des AI Hypercomputers aufrechterhalten kann.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles