Generative AI hat das Potenzial, die Produktivität des Menschen erheblich zu steigern. Dennoch verfügen derzeit nur wenige Organisationen über das Fachwissen und die Ressourcen, um grundlegende KI-Modelle von Grund auf zu entwickeln und zu trainieren. Die Herausforderungen sind zweifach: Erstens gestaltet sich die Sammlung der erforderlichen Trainingsdaten aufgrund strenger Urheberrechte immer schwieriger. Zweitens können die finanziellen Mittel für das Training erheblich sein. Dennoch sind die gesellschaftlichen Vorteile, generative KI-Technologien weitgehend zugänglich zu machen, erheblich.
Wie können also kleine Unternehmen oder Einzelentwickler generative KI in ihre Anwendungen integrieren? Die Lösung liegt in der Erstellung und Bereitstellung maßgeschneiderter Versionen bestehender grundlegender Modelle. Angesichts der erheblichen Investitionen, die mit der Entwicklung neuer generativer KI-Modelle verbunden sind, müssen diese vielseitig genug sein, um eine Vielzahl von Anwendungen zu bedienen – ähnlich wie die zahlreichen Anwendungen von GPT-basierten Modellen. Ein allgemeines Modell erfüllt jedoch möglicherweise nicht die spezifischen Anforderungen verschiedener Bereiche. Der Einsatz eines großen, allgemeinen Modells für eine Nischenanwendung kann zudem zu unnötigem Verbrauch von Rechenressourcen, Zeit und Energie führen.
Daher ist es für die meisten Unternehmen und Entwickler am besten, mit einem großen generativen KI-Modell als Grundlage zu beginnen und dieses mit deutlich geringerem Entwicklungsaufwand an ihre spezifischen Bedürfnisse anzupassen. Dieser Ansatz bietet zudem Flexibilität bei der Infrastruktur, indem verfügbare CPUs oder KI-Beschleuniger genutzt werden, wodurch Probleme im Zusammenhang mit GPU-Mangel umgangen werden. Es ist entscheidend, sich auf den spezifischen Anwendungsfall zu konzentrieren, den Umfang des Projekts einzugrenzen und die Flexibilität durch offene, standardbasierte Software und weit verbreitete Hardware zu optimieren.
Annahme des Anwendungsfallansatzes für die Entwicklung von KI-Anwendungen
Bei der Softwareentwicklung beschreibt ein Anwendungsfall die Merkmale der Zielnutzer, das zu lösende Problem und wie die Anwendung dies erreichen wird. Diese Definition bestimmt die Produktanforderungen, beeinflusst die Softwarearchitektur und bietet einen Fahrplan für den Lebenszyklus des Produkts. Am wichtigsten ist, dass sie klärt, was nicht im Umfang des Projekts enthalten ist.
Für generative KI-Projekte kann die Festlegung eines Anwendungsfalls die Größe des Modells, die Rechenanforderungen und den Energieverbrauch reduzieren, während die Genauigkeit durch die Fokussierung auf einen spezifischen Datensatz verbessert wird. Dieser gezielte Ansatz führt zu geringeren Entwicklungsaufwänden und Kosten.
Die Faktoren zur Definition eines Anwendungsfalls für generative KI können je nach Projekt variieren, aber einige Leitfragen können helfen:
- Datenanforderungen: Welche Art und Menge an Trainingsdaten sind erforderlich und verfügbar? Sind die Daten strukturiert (Datenlager) oder unstrukturiert (Datenlake)? Welche Einschränkungen gelten? Wie wird die Anwendung die Daten verarbeiten – durch Batchverarbeitung oder Streaming? Wie häufig werden Modellupdates durchgeführt? Das Training großer Sprachmodelle (LLMs) von Grund auf ist zeitaufwendig. Wenn Echtzeitwissen für Ihre Anwendung entscheidend ist (z. B. im Gesundheitswesen), könnten alternative Ansätze notwendig sein, um aktuelle Daten sicherzustellen.
- Modellanfordungen: Überlegungen zu Modellgröße, Leistung und Ergebnistransparenz sind entscheidend bei der Auswahl des richtigen Modells. Die Leistung von LLMs kann von Milliarden bis Billionen von Parametern reichen – Metas Llama 2 bietet Versionen von 7 bis 70 Milliarden Parametern, während OpenAIs GPT-4 mit 1,76 Billionen Parametern berichtet wird. Größere Modelle bieten in der Regel eine höhere Leistung, kleinere Modelle könnten jedoch besser zu Ihren Bedürfnissen passen. Offene Modelle ermöglichen eine tiefere Anpassung, während geschlossene Modelle schlüsselfertige Lösungen mit API-Zugang bieten. Die Anpassung eines Modells an Ihre Daten kann wichtig sein für Anwendungen, die Rückverfolgbarkeit erfordern, wie z. B. die Erstellung von Zusammenfassungen von Finanzberichten für Investoren, während ein Standardmodell für kreative Aufgaben wie das Erstellen von Werbetexten ausreichen könnte.
- Anwendungsanforderungen: Bestimmen Sie notwendige Standards für Genauigkeit, Latenz, Datenschutz und Sicherheit. Wie viele gleichzeitige Nutzer sollte es unterstützen? Wie interagieren die Nutzer mit der Anwendung? Ob Ihr Modell auf einem latenzarmen Edge-Gerät oder in einer hochkapazitiven Cloud-Umgebung läuft, wird die Implementierungsentscheidungen erheblich beeinflussen.
- Rechenanforderungen: Sobald die oben genannten Faktoren geklärt sind, ermitteln Sie die erforderlichen Rechenressourcen. Müssen Sie die Datenverarbeitung mit Modin parallelisieren? Reichen Ihre Anforderungen für Feintuning und Inferenz für ein hybrides Cloud-Edge-Setup aus? Selbst wenn Sie das Talent und die Daten haben, um ein generatives KI-Modell von Grund auf zu entwickeln, prüfen Sie, ob Ihr Budget die erforderliche Umgestaltung der Recheninfrastruktur unterstützen kann.
Diese Überlegungen werden die Diskussionen leiten, um Ihre Projektanforderungen zu definieren und einzugrenzen. Finanzielle Aspekte – einschließlich Datenengineering, Vorlaufkosten für die Entwicklung und das Geschäftsmodell zur Unterstützung der Inferenzkosten – beeinflussen ebenfalls die Strategien für Daten, Training und Bereitstellung.
Wie Intel's generative KI-Technologien helfen können
Intel bietet heterogene KI-Hardwarelösungen, die auf unterschiedliche Rechenbedürfnisse zugeschnitten sind. Um das Potenzial Ihrer Hardware zu maximieren, bietet Intel optimierte Versionen bekannter Datenanalyse- und End-to-End-KI-Tools an. Kürzlich stellte Intel ein optimiertes Modell vor, das #1 platzierte 7B-Parameter-Modell auf dem Hugging Face Open LLM-Leiterboard (Stand November 2023). Diese Ressourcen sowie die von Intels KI-Entwickler-Ökosystem können die Anforderungen Ihrer Anwendungen an Genauigkeit, Latenz und Sicherheit erfüllen. Beginnen Sie mit Hunderten von vortrainierten Modellen, die auf Hugging Face oder GitHub für Intel-Hardware optimiert sind. Sie können Daten mit Intel-Tools wie Modin vorverarbeiten, grundlegende Modelle mit Tools wie Intel® Extension for Transformers oder Hugging Face Optimum feintunen und das Modell-Tuning mit SigOpt automatisieren, alles basierend auf Optimierungen, die zu Open-Source-KI-Frameworks wie TensorFlow, PyTorch und DeepSpeed beigetragen wurden.
Beispiele für Anwendungsfälle von generativer KI
1. Kundenservice: Chatbot-Anwendungsfall
LLM-basierte Chatbots verbessern die Serviceeffizienz, indem sie sofortige Antworten auf häufige Anfragen geben, sodass Mitarbeiter komplexere Probleme angehen können. Allgemeine LLMs können in verschiedenen Sprachen kommunizieren, könnten jedoch spezifisches Geschäftskenntnis mangeln oder Informationen "halluzinieren", die nicht auf Grundlagen basieren. Feintuning aktualisiert das Modell schrittweise, während Abrufmethoden, wie die retrieval-augmented generation (RAG), relevante Daten aus einer externen Datenbank abrufen, die aus geschäftsspezifischen Dokumenten erstellt wurde. Beide Ansätze führen zu kontextspezifischen Antworten und können weit verbreitete CPUs wie Intel® Xeon® Scalable Prozessoren nutzen.
2. Einzelhandel: Virtueller Anprobe-Anwendungsfall
Generative KI kann immersive Online-Shopping-Erlebnisse wie virtuelle Anproben bieten und so die Kundenzufriedenheit steigern und die Effizienz der Lieferkette optimieren. Diese Anwendung basiert auf der Bildgenerierung und sollte sich auf die spezifische Bekleidungslinie konzentrieren. Feintuning von Bildmodellen wie Stable Diffusion erfordert möglicherweise nur eine begrenzte Anzahl von Bildern, die auf CPU-Plattformen verarbeitet werden. Um die Privatsphäre der Kunden zu schützen, sollten Bilder lokal gespeichert werden, möglicherweise auf Verbrauchergeräten.
3. Gesundheitswesen: Patientenüberwachung-Anwendungsfall
Die Kombination von generativer KI mit der Echtzeit-Patientenüberwachung kann personalisierte Berichte und Aktionspläne erstellen. Dieser Anwendungsfall erfordert multimodale KI, um verschiedene Eingabetypen zu verarbeiten und Berichte zu erstellen. Das Training von Modellen im Gesundheitswesen wirft Datenschutzbedenken auf, weshalb sichergestellt werden muss, dass Patientendaten bei den Anbietern bleiben. Föderiertes Lernen ermöglicht es dem Modell, lokal zu trainieren, ohne sensible Daten zu übertragen. Obwohl lokale Inferenz ideal ist, können hybride Lösungen, die sowohl Edge- als auch Cloud-Komponenten einbeziehen, notwendig sein, was möglicherweise Optimierungstechniken erfordert.
So starten Sie
Beginnen Sie mit der Definition Ihres Anwendungsfalls mithilfe der oben genannten Leitfragen, um Daten-, Rechen-, Modell- und Anwendungsanforderungen zu klären. Erkunden Sie als Nächstes relevante grundlegende Modelle, Referenzimplementierungen und Community-Ressourcen im KI-Ökosystem. Identifizieren und nutzen Sie die für Ihr Projekt am besten geeigneten Feintuning- und Optimierungstechniken.
Das Bewusstsein für die Rechenbedürfnisse kann Zeit in Anspruch nehmen, und diese entwickeln sich oft im Verlauf des Projekts weiter. Intel® Developer Cloud bietet verschiedene CPUs, GPUs und KI-Beschleuniger, die Ihnen beim Entwicklungsstart helfen.
Um schließlich den Übergang zwischen verschiedenen Rechenplattformen während der Entwicklung und Bereitstellung zu erleichtern, wählen Sie KI-Tools und -Frameworks, die offen, standardbasiert sind und auf verschiedenen Geräten eine optimale Leistung bieten, ohne umfangreiche Codeänderungen zu erfordern.