Nvidia startet AI Foundry-Service auf Microsoft Azure mit neuen Nemotron-3 8B-Modellen.

Nvidia verbessert seine Co-Selling-Strategie mit Microsoft durch die Einführung eines KI-Foundry-Services, der Unternehmen und Startups dabei hilft, maßgeschneiderte KI-Anwendungen auf der Azure-Cloud zu entwickeln. Dieser Service nutzt Unternehmensdaten mithilfe von Retrieval Augmented Generation (RAG).

„Nvidias KI-Foundry-Service integriert unsere generativen KI-Technologien, unser Fachwissen im LLM-Training und umfangreiche KI-Fabrik-Fähigkeiten, die auf Microsoft Azure basieren. Damit können Unternehmen weltweit ihre benutzerdefinierten Modelle mit Microsofts erstklassigen Cloud-Diensten verbinden“, erklärte Jensen Huang, Gründer und CEO von Nvidia.

Hauptmerkmale von Nvidias KI-Foundry-Service auf Azure

Mit Nvidias KI-Foundry-Service auf Azure haben Unternehmen alle erforderlichen Komponenten für die Entwicklung anpassungsfähiger, unternehmensorientierter generativer KI-Anwendungen an einem Ort. Dieses umfassende Angebot umfasst Nvidias KI-Grundlagenmodelle, das NeMo-Framework und Zugriff auf die HPC-Ressourcen der Nvidia DGX-Cloud.

„Erstmals können Unternehmen das gesamte Spektrum der erforderlichen Komponenten – von Hardware bis Software – end-to-end auf Microsoft Azure nutzen. Kunden können den gesamten Workflow für generative KI nahtlos über Azure mit Nvidia durchführen“, sagte Manuvir Das, VP für Unternehmens-IT bei Nvidia.

Um den Unternehmen zusätzliche Optionen zu bieten, führt Nvidia eine neue Reihe von Nemotron-3 8B-Modellen ein, die für fortschrittliche Chat- und Q&A-Anwendungen in Branchen wie Gesundheitswesen, Telekommunikation und Finanzen konzipiert sind. Diese Modelle verfügen über mehrsprachige Fähigkeiten und sind über den Azure AI-Modellkatalog sowie Hugging Face und Nvidias NGC-Katalog erhältlich.

Weitere grundlegende Modelle aus Nvidias Katalog, die ebenfalls mit Azure integriert werden, sind Llama 2, Stable Diffusion XL und Mistral 7b.

Nach der Auswahl ihres bevorzugten Modells können Benutzer die Trainings- und Bereitigungsphasen für maßgeschneiderte Anwendungen über Nvidia DGX Cloud und AI Enterprise-Software im Azure Marketplace angehen. DGX Cloud bietet skalierbare Instanzen, die bis zu Tausende von NVIDIA Tensor Core GPUs für das Training nutzen, und kommt mit einem Toolkit zur Optimierung der LLM-Anpassung.

Partnerschaft mit Oracle und frühe Anwender

Nvidia hat zudem eine Partnerschaft mit Oracle geschlossen, die es berechtigten Unternehmen ermöglicht, Werkzeuge aus dem Oracle Cloud Marketplace für das Modelltraining auf Oracle Cloud Infrastructure (OCI) zu erwerben. Zu den aktuellen frühen Anwendern des Foundry-Services auf Azure zählen SAP, Amdocs und Getty Images, die maßgeschneiderte KI-Anwendungen für diverse Anwendungsfälle entwickeln.

Erweiterte Partnerschaft zwischen Nvidia und Microsoft

Zusätzlich zum generativen KI-Service hat Microsoft die Einführung neuer NC H100 v5-virtueller Maschinen für Azure angekündigt. Diese innovativen Cloud-Instanzen sind mit dualen PCIe-basierten H100 GPUs ausgestattet, die über Nvidia NVLink verbunden sind und nahezu vier Petaflops an KI-Rechenleistung sowie 188 GB Hochgeschwindigkeits-HBM3-Speicher bieten.

Die Nvidia H100 NVL GPU ist darauf ausgelegt, eine bis zu 12-fach bessere Leistung bei GPT-3 175B im Vergleich zu vorherigen Modellen zu erzielen, was sie ideal für Inferenz- und Trainingsaufgaben macht. Darüber hinaus plant Nvidia, die neue H200 Tensor Core GPU nächstes Jahr in Azure zu integrieren, die 141 GB HBM3e-Speicher und eine Spitzenbandbreite von 4,8 TB/s für umfangreiche KI-Workloads bietet.

Updates für KI auf Windows-Geräten

Um die LLM-Betriebsabläufe auf Windows-Geräten zu optimieren, hat Nvidia auch mehrere Updates bekannt gegeben, darunter TensorRT LLM für Windows, das neue große Sprachmodelle wie Mistral 7B und Nemotron-3 8B unterstützen wird. Dieses Update, das noch in diesem Monat veröffentlicht wird, verspricht eine fünfmal schnellere Inferenzleistung und verbessert die Ausführung von Modellen auf Desktops und Laptops, die mit GeForce RTX 30 und 40 Serien GPUs und mindestens 8 GB RAM ausgestattet sind.

Zusätzlich wird TensorRT-LLM über einen neuen Wrapper mit OpenAIs Chat-API kompatibel sein, was es zahlreichen Entwicklerprojekten ermöglicht, lokal auf Windows 11 PCs mit RTX zu laufen und so die Abhängigkeit von der Cloud zu beseitigen.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles