Die steigenden Kosten im Zusammenhang mit großen Sprachmodellen (LLMs), die generative KI antreiben, werfen zunehmend Bedenken in der Tech-Industrie auf. Kleinere Modelle bieten jedoch vielversprechende Lösungen. „Der Aufstieg von LLMs wie GPT-4 hat bemerkenswerte Fortschritte in der Leistung gezeigt, doch diese Verbesserungen haben auch zu stark steigenden Kosten geführt“, erklärte Adnan Masood, Chief AI Architect bei UST, in einem kürzlichen Interview. Er wies darauf hin, dass die Rechenanforderungen von LLMs—aufgrund ihrer riesigen Größe und Milliarden von Parametern—eine erhebliche Energieversorgung erfordern. Diese hohe Rechenintensität führt zu einem hohen Energieverbrauch, was die Betriebskosten erhöht und Umweltbedenken aufwirft.
„Da die Modellgrößen häufig die GPU-Speicherkapazitäten überschreiten, steigt die Abhängigkeit von spezialisierten Hardware-Lösungen oder komplexem Modell-Parallellauf, was die Infrastrukturkosten weiter steigert“, fügte Masood hinzu. Er betonte, dass kleinere Sprachmodelle nicht nur die Kosten senken, sondern auch die Effizienz steigern können, wenn sie sorgfältig optimiert werden. Techniken wie Modell-Destillation und Quantisierung können diese kleineren Modelle effektiv komprimieren und optimieren. Bei der Destillation wird ein kleineres Modell anhand der Ausgaben eines größeren Modells trainiert, während die Quantisierung die Präzision der numerischen Gewichte des Modells reduziert, was ein kleineres und schnelleres Modell schafft.
Die reduzierte Parameteranzahl kleinerer Modelle führt direkt zu geringeren Anforderungen an die Rechenleistung, was schnellere Inferenz und potenziell kürzere Trainingszeiten ermöglicht. „Diese kompakte Größe ermöglicht eine nahtlose Integration in den Standard-GPU-Speicher und eliminiert effektiv die Notwendigkeit teurer spezialisierter Hardware“, erläuterte er. Diese Einsparungen bei Rechen- und Speichernutzung senken nicht nur den Energieverbrauch, sondern reduzieren auch die Betriebskosten. Zudem profitieren Unternehmen von der Nutzung von APIs für frühe Proof-of-Concepts oder Prototypen in Produktionsarbeitslasten, insbesondere aufgrund der geringeren Kosten pro Token während des Skalierens. Masood warnte jedoch, dass eine ausschließliche Abhängigkeit von größeren Sprachmodellen zu exponentiellen Kostensteigerungen führen kann, wenn Anwendungen schnell wachsen.
Neben der Reduzierung von Trainingszeiten und Kosten können kleinere Sprachmodelle die Cloud-Infrastrukturkosten erheblich senken, wie Matt Barrington, Emerging Technology Leader für die Amerikas bei EY, hervorhob. Beispielsweise führt die Feinabstimmung eines domänenspezifischen Modells auf Cloud-Plattformen zu einer geringeren Ressourcennutzung. Dieser Wandel ermöglicht es Unternehmen, ihre KI-Ressourcen effektiver zuzuweisen und sich auf Bereiche zu konzentrieren, die sie näher an den Endnutzer bringen. „Durch die Verwendung kompakter Sprachmodelle im Edge-Computing können Unternehmen die Abhängigkeit von teuren Cloud-Ressourcen verringern, was zu erheblichen Kosteneinsparungen führt“, betonte er.
Bereits jetzt gibt es mehrere vielversprechende Beispiele effizienter KI-Modelle im Einsatz. Neueste Modelle wie phi-1.5 zeigen Leistungsfähigkeiten, die mit größeren Modellen wie GPT-4 konkurrieren, so Masood. Zudem sind spezialisierte Modelle wie Med-PaLM 2, die speziell für den Gesundheitssektor entwickelt wurden, und Sec-Palm für Sicherheitsanwendungen konzipiert. Darüber hinaus auftauchende Modelle wie Llama 2 70b bieten kostengünstige Alternativen und sind deutlich günstiger als Wettbewerber wie Google’s PaLM 2, was eine erhebliche Reduzierung im Vergleich zu vorherigen Modellversionen darstellt. Erwähnenswert ist, dass Metas 13-Milliarden-Parameter-LLaMA in mehreren Benchmarks bessere Ergebnisse als das größere GPT-3 erzielt hat.
Initiativen wie die BabyLM-Challenge an der Johns Hopkins University zielen darauf ab, die Effektivität kleinerer Modelle zu steigern, um sie mit LLMs konkurrieren zu lassen. Zudem bietet Amazon einen Marktplatz für diese kompakten Modelle, die auf die spezifischen Datenbedürfnisse von Unternehmen zugeschnitten werden können. Organisationen wie Anyscale und MosaicML verkaufen auch Modelle wie Llama 2 mit 70 Milliarden Parametern zu erschwinglichen Preisen, was einen zunehmenden Trend hin zu effektiven und kostengünstigen Lösungen zeigt.
Angesichts der weiterhin steigenden Kosten großer Sprachmodelle wird die Dringlichkeit, wirtschaftlich tragfähige Alternativen zu finden, immer offensichtlicher. Das Training dieser Modelle verursacht erhebliche Ausgaben, insbesondere für GPUs wie Nvidias H100, die über 30.000 Dollar kosten können. „Es gibt eine Warteliste für solche GPUs, einige Risikokapitalgeber nutzen diese sogar, um Startups für Investitionen zu gewinnen“, bemerkte Muddu Sudhakar, CEO von Aisera.
Selbst bei der Anschaffung von GPUs ist eine erhebliche Einnahmengenerierung entscheidend, um die hohen Kosten auszugleichen, merkte Sudhakar an. Er verwies auf einen kürzlichen Blog der Risikokapitalfirma Sequoia, der eine signifikante Monetarisierungslücke hervorhebt, die das Wachstum des Marktes für generative KI gefährden könnte. „Sobald die GPU gesichert ist, stehen Unternehmen vor der Herausforderung, Datenwissenschaftler zu rekrutieren, deren Vergütungspakete beträchtlich sein können“, erklärte er. „Außerdem ist die Operationalisierung von LLMs kostspielig, aufgrund der laufenden Anforderungen zur Verarbeitung von Interaktionen, zur Verwaltung und Aktualisierung von Modellen sowie zur Bewältigung verschiedener Sicherheitsprobleme.“
Blickt man in die Zukunft, so erwartet Masood, dass feinabgestimmte LLMs Leistungsniveaus erreichen, die den größeren Gegenstücken ähnlich sind, jedoch nur einen Bruchteil der Kosten verursachen. Die Open-Source-Community geht bereits praktische Herausforderungen mit Innovationen wie LongLoRA an, die die Kontextfenster erheblich erweitern. „Wenn die aktuellen Trends Anzeichen geben, werden wir möglicherweise bald eine Synthese von Open-Source-Modellen und kleineren LLMs erleben, die die Grundlage für das nächste Generation der Sprachmodellierungs-Ökosysteme bilden“, schloss er.