Google Cloud Run integriert Nvidia GPUs für verbesserte serverlose KI-Inferenz

Home KI-Nachrichten Google Cloud Run integriert Nvidia GPUs für verbesserte serverlose KI-Inferenz

Die Kosten und Vorteile von KI mit serverloser Infrastruktur erkunden

Die Ausführung von KI-Anwendungen verursacht verschiedene Kosten, wobei die GPU-Leistung für Inferenz eine der größten Ausgaben darstellt. Traditionell haben Organisationen, die KI-Inferenz verwalten, auf kontinuierliche Cloud-Instanzen oder lokale Hardware zurückgegriffen. Google Cloud stellt nun eine innovative Lösung in Aussicht, die die Bereitstellung von KI-Anwendungen revolutionieren könnte: die Integration von Nvidia L4-GPUs mit dem serverlosen Angebot von Cloud Run, das es Organisationen ermöglicht, serverlose Inferenz durchzuführen.

Die Kraft der serverlosen Inferenz nutzen

Der Hauptvorteil der serverlosen Architektur ist ihre Kosteneffizienz; die Dienste laufen nur bei Bedarf, sodass Nutzer ausschließlich für die tatsächliche Nutzung bezahlen. Im Gegensatz zu herkömmlichen Cloud-Instanzen, die kontinuierlich laufen, aktivieren sich serverlose GPUs nur bei spezifischen Anfragen.

Die serverlose Inferenz kann Nvidia NIM und verschiedene Frameworks wie VLLM, PyTorch und Ollama nutzen. Die Unterstützung für Nvidia L4 GPUs, die sich derzeit im Vorab-Test befindet, wird mit großer Erwartung begrüßt.

„Da Kunden zunehmend KI annehmen, möchten sie KI-Workloads auf bekannten Plattformen bereitstellen“, sagte Sagar Randive, Produktmanager für Google Cloud Serverless. „Die Effizienz und Flexibilität von Cloud Run sind entscheidend, und die Nutzer haben GPU-Unterstützung angefordert.“

Der Wandel zu einer serverlosen KI-Umgebung

Google Cloud Run, eine vollständig verwaltete serverlose Plattform, erfreut sich bei Entwicklern großer Beliebtheit aufgrund der einfachen Bereitstellung und Verwaltung von Containern. Mit dem Wachstum der KI-Workloads—insbesondere derjenigen, die eine Echtzeitverarbeitung erfordern—wurde der Bedarf an verbesserten Rechenressourcen deutlich.

Die Erweiterung um GPU-Unterstützung eröffnet Cloud Run-Entwicklern zahlreiche Möglichkeiten, darunter:

- Echtzeitinferenz mit leichtgewichtigen Modellen wie Gemma 2B/7B oder Llama 3 (8B), die die Entwicklung reaktionsschneller Chatbots und dynamischer Dokumentenzusammenfassungs-Tools erleichtert.

- Maßgeschneiderte, feinabgestimmte generative KI-Modelle, die skalierbare Bildgenerierungsanwendungen ermöglichen, die an spezifische Marken angepasst sind.

- Beschleunigte rechenintensive Aufgaben, einschließlich Bilderkennung, Video-Transcodierung und 3D-Rendering, die im Leerlauf auf null skaliert werden können.

Leistungsüberlegungen zur serverlosen KI-Inferenz

Ein häufiges Anliegen im Zusammenhang mit serverlosen Architekturen ist die Leistung, insbesondere bei Kaltstarts. Google Cloud begegnet diesen Bedenken mit beeindruckenden Kennzahlen: Die Kaltstartzeiten für verschiedene Modelle, einschließlich Gemma 2B, Gemma 29B, Llama 2 7B/13B und Llama 3.1 8B, liegen zwischen 11 und 35 Sekunden.

Jede Cloud Run-Instanz kann mit einer Nvidia L4 GPU ausgestattet werden, die bis zu 24 GB vRAM bietet—ausreichend für die meisten KI-Inferenzaufgaben. Google Cloud verfolgt das Ziel, Modellagnostik zu gewährleisten, empfiehlt jedoch die Verwendung von Modellen mit weniger als 13 Milliarden Parametern für eine optimale Leistung.

Kosteneffizienz der serverlosen KI-Inferenz

Ein wesentlicher Vorteil des serverlosen Modells ist das Verbesserungspotenzial der Hardwareauslastung, was zu Kosteneinsparungen führen kann. Ob serverlose KI-Inferenz jedoch günstiger ist als traditionelle dauerhafte Server, hängt von der spezifischen Anwendung und den erwarteten Verkehrsströmen ab.

„Das ist nuanciert“, erklärte Randive. „Wir werden unseren Preisrechner aktualisieren, um die neuen GPU-Preise mit Cloud Run widerzuspiegeln, damit Kunden ihre gesamten Betriebskosten über verschiedene Plattformen hinweg vergleichen können.“

Durch die Anpassung an diese aufkommende serverlose Politik können Organisationen ihre KI-Bereitstellungsstrategien optimieren und gleichzeitig die Kosten effektiv verwalten.

Midjourney startet Website für alle Nutzer: Erhalte heute 25 kostenlose KI-Bilder!

LambdaTest präsentiert KaneAI: Ihr All-in-One-Agent für umfassendes Softwaretesting

Most people like

ProAI

27.1K

Maßgeschneiderte KI-Lösungen zur Beschleunigung des Unternehmenswachstums.

KI-gestützt Marketing Plan Generator

TranslateImage

64.1K

Verwandeln Sie Bilder in mehrere Sprachen, ohne das ursprüngliche Textformat zu verändern. Dieser Prozess gewährleistet, dass die visuelle Integrität des Inhalts gewahrt bleibt, während er einem vielfältigen Publikum weltweit zugänglich gemacht wird. Entdecken Sie, wie Sie Bilder nahtlos übersetzen und die Kommunikation über Sprachbarrieren hinweg verbessern können.

Bildübersetzung Translate

DataCamp

6.5M

Entdecken Sie die Welt der Datenwissenschaft und Künstlichen Intelligenz mit flexiblen Online-Kursen, die auf Ihren Zeitplan abgestimmt sind. Lernen Sie in Ihrem eigenen Tempo und entfalten Sie Ihr Potenzial in diesen innovativen Bereichen!

Datenwissenschaft AI Course

Fine-Tuner

54.7K

Nutzen Sie die fortschrittliche Technologie von Fine-Tuner, um schnell eine überlegene NLP-Leistung zu entfalten.

NLP Large Language Models (LLMs)

Find AI tools in YBX