Sie haben Ihre Dienstleistungen stolz als „KI-gestützt“ positioniert, indem Sie große Sprachmodelle (LLMs) integriert haben. Die Startseite Ihrer Website zeigt die transformative Wirkung Ihrer KI-gesteuerten Lösungen mit interaktiven Demos und Fallstudien und markiert Ihren Eintritt in die globale Landschaft der generativen KI. Ihre kleine, jedoch engagierte Nutzerbasis schätzt die verbesserte Kundenerfahrung, und es ergeben sich Wachstumschancen. Doch nur drei Wochen in den Monat überrascht Sie eine E-Mail von OpenAI:
Eine Woche zuvor haben Sie mit Kunden gesprochen und die Marktfähigkeit Ihrer Produkte evaluiert, als plötzlich der Traffic auf Ihrer Website ansteigt und Ihre KI-gestützten Dienste ausfällt. Dieser Anstieg frustriert nicht nur bestehende Nutzer, sondern schreckt auch potenzielle Neukunden ab. Eine schnelle Lösung könnte eine Erhöhung Ihres Nutzungslimits sein, aber das macht Sie unbehaglich, da Sie sich auf einen einzigen Anbieter verlassen und die Kontrolle über Ihre KI-Kosten verlieren. Sie fragen sich: „Sollte ich selbst hosten?“
Glücklicherweise sind Open-Source-LLMs auf Plattformen wie Hugging Face verfügbar, was die Option des Selbsthostings bietet. Allerdings verfügen viele führenden Modelle über Milliarden von Parametern und erfordern erhebliche Ressourcen zur Skalierung, insbesondere für Anwendungen mit geringer Latenz. Obwohl Sie Vertrauen in die Fähigkeiten Ihres Teams haben, die erforderliche Infrastruktur aufzubauen, sind die potenziellen Kosten eines solchen Wechsels beeindruckend:
- Kosten für das Fein-Tuning
- Hosting-Ausgaben
- Betriebskosten
Die drängende Frage bleibt: Sollten Sie das Nutzungslimit erhöhen oder sich für das Selbsthosting entscheiden?
Evaluierung von LLaMA 2
Nehmen Sie sich Zeit; dies ist eine entscheidende Entscheidung. Im Gespräch mit Ihren Machine Learning-Ingenieuren stoßen Sie auf LLaMA 2, ein Open-Source-LLM, das vergleichbare Leistungen wie GPT-3, Ihr aktuelles Modell, erbringt. Es gibt drei Größen: 7 Milliarden, 13 Milliarden und 70 Milliarden Parameter. Sie entscheiden sich für das größte Modell, um wettbewerbsfähig zu bleiben. LLaMA 2 wird im bfloat16-Format trainiert und benötigt 2 Bytes pro Parameter, was zu einer Gesamtmodellgröße von 140 GB führt.
Sorgen Sie sich um die Komplexität des Fein-Tunings eines Modells dieser Größe? Machen Sie sich keine Sorgen. Mit LoRA müssen Sie nur etwa 0,1 % der Parameter – rund 70 Millionen – feinjustieren, was lediglich 0,14 GB benötigt. Um den Speicheraufwand während des Fein-Tunings (einschließlich Backpropagation und Datenspeicherung) zu verwalten, sollten Sie etwa das Fünffache des Speichers der trainierbaren Parameter anstreben:
- Feste LLaMA 2 Modellgewichte: 140 GB (keine Speicherüberlastung)
- LoRA Fein-Tuning-Gewichte: 0,14 GB * 5 = 0,7 GB
Dies ergibt insgesamt etwa 141 GB während des Fein-Tunings. Wenn Ihnen die Trainingsinfrastruktur fehlt, sollten Sie in Erwägung ziehen, AWS zu nutzen. Die Preisgestaltungen für On-Demand-Nutzung betragen im Durchschnitt ~$2,80 pro Stunde für die Rechenleistung, was insgesamt ~$67 pro Tag für das Fein-Tuning ausmacht – ein erschwinglicher Preis, besonders da das Fein-Tuning nicht lange dauern sollte.
Verstehen der Betriebskosten
Bei der Bereitstellung müssen Sie zwei Sets von Gewichten im Speicher halten:
- Modellgewichte: 140 GB
- LoRA Fein-Tuning-Gewichte: 0,14 GB
Insgesamt also etwa 140,14 GB. Sie könnten die Gradientberechnung überspringen, es ist jedoch ratsam, etwa 1,5-mal mehr Speicher für unerwartete Überlastungen bereitzuhalten (circa 210 GB). Bei AWS kosten GPU-Computing etwa $3,70 pro Stunde – also rund ~$90 pro Tag – was monatlich etwa $2.700 ausmacht. Planen Sie auch für Notfälle. Um Dienstunterbrechungen zu vermeiden, sollten Sie ein redundantes Modell in Betracht ziehen, was die Kosten auf etwa $180 pro Tag oder $5.400 pro Monat erhöht – also fast so viel wie Ihre aktuellen Ausgaben bei OpenAI.
Analyse der Kostengrenzen
Die Fortführung mit OpenAI würde eine ungefähre tägliche Verarbeitungsleistung erbringen, die den Kosten für das Fein-Tuning von LLaMA 2 entspricht: Das Fein-Tuning von GPT 3.5 Turbo kostet $0,008 pro 1K Tokens. Angenommen, es gibt zwei Tokens pro Wort, um die Fein-Tuning-Kosten des Open-Source-Modells ($67/Tag) auszugleichen, müssten Sie täglich etwa 4,15 Millionen Worte verarbeiten – etwa 14.000 Seiten Daten. Dieses Volumen ist für die meisten Organisationen möglicherweise unpraktisch, weshalb die Nutzung von OpenAI für Fein-Tuning in der Regel wirtschaftlicher ist.
Zusammenfassung: Wann lohnt sich die Eigenverantwortung?
Selbsthosting von KI kann auf den ersten Blick verlockend erscheinen, doch seien Sie vorsichtig mit versteckten Kosten. Während Drittanbieter viele Herausforderungen im Umgang mit LLMs erleichtern, haben sie auch eigene Vorteile, insbesondere für Dienste, die KI nutzen, statt sie in den Mittelpunkt zu stellen. Für große Unternehmen mag die jährliche Eigenverantwortung von $65.000 handhabbar erscheinen, für die meisten Unternehmen ist es jedoch eine beträchtliche Summe. Vergessen Sie nicht, auch zusätzliche Ausgaben für Talente und Wartung zu berücksichtigen, die die Gesamtkosten auf $200.000-250.000 oder mehr pro Jahr erhöhen können. Während der Besitz eines Modells Kontrolle über Daten und Nutzung ermöglicht, müssen Sie täglich über 22,2 Millionen Worte in Nutzeranfragen hinauskommen und die logistischen Ressourcen bereitstellen, um diese Anforderungen zu bewältigen. Für viele Anwendungsfälle sind die finanziellen Vorteile des Selbsthostings im Vergleich zur Nutzung einer API unklar.