Was ist ein NIM? Entdecken Sie, wie Nvidia Inference Microservices die Bereitstellung von KI-Modellen in der Industrie revolutioniert.

Nvidia wird die Implementierung von generativen KI-Modellen (LLMs) durch einen bahnbrechenden Ansatz zur schnellen Inferenz erheblich verbessern. Während der heutigen Nvidia GTC-Veranstaltung stellte der Technologieriese die Nvidia Inference Microservices (NIM) vor, eine Softwaretechnologie, die optimierte Inferenz-Engines, branchenspezifische APIs und Unterstützung für KI-Modelle in Containern bündelt, um eine nahtlose Bereitstellung zu ermöglichen. NIM bietet nicht nur vorgefertigte Modelle, sondern ermöglicht es Unternehmen auch, eigene Daten zu integrieren und die Implementierung von Retrieval Augmented Generation (RAG) zu beschleunigen.

Die Einführung von NIM stellt einen entscheidenden Fortschritt in der Bereitstellung von generativer KI dar und bildet das Rückgrat der Next-Generation-Inferenzstrategie von Nvidia, die nahezu jeden Modellentwickler und jede Datenplattform in der Branche beeinflussen wird. Nvidia hat mit großen Softwareanbietern wie SAP, Adobe, Cadence und CrowdStrike sowie verschiedenen Datenplattformanbietern wie BOX, Databricks und Snowflake zusammengearbeitet, um NIM zu unterstützen.

NIM ist Teil der NVIDIA Enterprise AI-Software-Suite, die heute bei GTC in Version 5.0 veröffentlicht wird. „Nvidia NIM ist das führende Softwarepaket und die Laufzeitumgebung für Entwickler, sodass sie sich auf Unternehmensanwendungen konzentrieren können“, erklärte Manuvir Das, VP für Enterprise Computing bei Nvidia.

Was ist Nvidia NIM?

Im Kern ist NIM ein Container voller Mikroservices, der verschiedene Modelle – sowohl offene als auch proprietäre – hosten kann. Diese können auf jeder Nvidia GPU betrieben werden, egal ob in der Cloud oder auf einer lokalen Maschine. NIM kann überall dort bereitgestellt werden, wo Containervirtualisierung unterstützt wird, einschließlich Kubernetes in der Cloud, Linux-Servern oder serverlosen Function-as-a-Service-Modellen. Nvidia plant, den serverlosen Ansatz auf seiner neuen Website ai.nvidia.com anzubieten, damit Entwickler mit NIM beginnen können, bevor sie es implementieren.

Wichtig ist, dass NIM bestehende Methoden zur Bereitstellung von Nvidia-Modellen nicht ersetzt. Stattdessen bietet es ein hochoptimiertes Modell für Nvidia GPUs zusammen mit wesentlichen Technologien zur Verbesserung der Inferenz. Während der Pressekonferenz bekräftigte Kari Briski, VP für generatives KI-Softwareproduktmanagement, Nvidias Engagement als Plattformunternehmen. Sie hob hervor, dass Werkzeuge zur Unterstützung der Inferenz, wie TensorRT und Triton Inference Server, entscheidend bleiben. „Um diese Komponenten in einer Produktionsumgebung für generative KI in großem Maßstab zusammenzuführen, ist erhebliches Know-how erforderlich, weshalb wir sie gebündelt haben“, erklärte Briski.

NIM zur Verbesserung der RAG-Fähigkeiten für Unternehmen

Eine wichtige Anwendung für NIM liegt in der Erleichterung von RAG-Bereitstellungsmodellen. „Fast jeder Kunde, mit dem wir gesprochen haben, hat zahlreiche RAGs implementiert“, bemerkte Das. „Die Herausforderung besteht darin, vom Prototyping zu greifbarem Geschäftswert in der Produktion überzugehen.“ Nvidia erwartet zusammen mit führenden Datenanbietern, dass NIM eine tragfähige Lösung bietet. Vektordatenbankfähigkeiten sind entscheidend für die Ermöglichung von RAG, und mehrere Anbieter – darunter Apache Lucene, Datastax und Milvus – integrieren die Unterstützung für NIM.

Der RAG-Ansatz wird weiter verbessert durch die Integration von NVIDIA NeMo Retriever Mikroservices in NIM-Bereitstellungen. NeMo Retriever, das im November 2023 angekündigt wurde, ist darauf ausgelegt, die Datenabfrage für RAG-Anwendungen zu optimieren. „Wenn Sie einen Retriever integrieren, der sowohl beschleunigt als auch auf hochwertigen Datensätzen trainiert ist, hat dies erhebliche Auswirkungen“, fügte Briski hinzu.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles