Die Open-Source-Veröffentlichung von Metas fortschrittlichem großem Sprachmodell Llama 2 hat bei Entwicklern und Forschern großes Lob erhalten, insbesondere aufgrund seiner Zugänglichkeit. Dieses Modell hat die Entwicklung mehrerer KI-Systeme inspiriert, darunter Vicuna, Alpaca und Metas eigenes Llama 2 Long. Allerdings können die Betriebskosten für Llama 2 erheblich höher sein als die proprietärer Alternativen. Berichten zufolge erleben zahlreiche Startups Betriebskosten, die 50 % bis 100 % höher liegen als bei OpenAI's GPT-3.5 Turbo, während das hochmoderne GPT-4 noch teurer bleibt. Beide Sprachmodelle sind grundlegend für ChatGPT.
Der Kostenunterschied kann manchmal exorbitant sein. Die Gründer des Chatbot-Startups Cypher führten im August Tests mit Llama 2 durch und kamen auf stattliche Kosten von 1.200 USD, während die gleichen Tests mit GPT-3.5 Turbo nur 5 USD kosteten. Kürzlich stellte OpenAI ein neues, wirtschaftlicheres Modell vor, GPT-4 Turbo, das bei einem Cent pro 100 Eingabetokens läuft und dreimal günstiger ist als die vorherige 8K-Version von GPT-4. Auf ihrem DevDay-Event ermutigte OpenAI die Entwickler, das neue Modell auszuprobieren, indem jedem Teilnehmer 500 USD an kostenlosen API-Guthaben angeboten wurden. Während Llama 2 offenen Zugang bietet, könnten die erheblichen Unterschiede bei den Betriebskosten Unternehmen davon abhalten, es zu übernehmen.
Ein Verständnis für die Kostendifferenzen
Ein wesentlicher Faktor, der zu den höheren Kosten bei Open-Source-Modellen beiträgt, ist die Infrastruktur, die Unternehmen nutzen. OpenAI kann Millionen von Anfragen effizient verarbeiten, indem sie diese für die gleichzeitige Verarbeitung auf Hochleistungs-Chips bündelt. Im Gegensatz dazu haben Startups wie Cypher, die auf Open-Source-Modelle angewiesen sind und spezialisierte Server über Cloud-Anbieter mieten, möglicherweise nicht genug Traffic, um ähnliche Effizienzen zu erreichen. Diese Diskrepanz schränkt ihre Fähigkeit ein, das volle Potenzial der Serverkapazitäten auszuschöpfen.
Die Betriebskosten für Open-Source-große Sprachmodelle können dramatisch schwanken, abhängig von den spezifischen Aufgaben, dem Anfragevolumen und dem erforderlichen Grad an Anpassung. Bei einfachen Aufgaben wie der Zusammenfassung können die Kosten relativ niedrig bleiben, während komplexere Funktionen eine größere Investition erfordern können.
Bradley Shimmin, Hauptanalyst für KI und Datenanalyse, weist darauf hin, dass es nur wenig Transparenz hinsichtlich der Kostenmanagementstrategien von OpenAI gibt. „OpenAI profitiert wahrscheinlich von Skaleneffekten, die für kleinere Unternehmen, die umfangreiche Modelle auf Cloud-Plattformen wie AWS oder Azure hosten möchten, nicht zugänglich sind“, schlägt er vor.
Eine Fehlanpassung der Ressourcen
In einer aktuellen Analyse hat Permutable.ai seine Betriebskosten für die Nutzung von OpenAIs Technologie auf etwa 1 Million USD pro Jahr geschätzt – 20-mal so hoch wie bei internen Modellen. Wilson Chan, CEO von Permutable.ai, vergleicht die Nutzung von ChatGPT für kleinere Aufgaben mit der Verwendung eines „Schlaghammers, um eine Nuss zu knacken“ – effektiv, aber übertrieben kraftvoll. Er warnt vor den rechnerischen und finanziellen Ressourcen, die mit schweren Modellen für Routineaufgaben verbunden sind, und betont die Bedeutung, die Fähigkeiten des KI-Modells mit den praktischen Bedürfnissen in Einklang zu bringen, um Kosteneffizienz sicherzustellen.
Die Kostenstrukturen erkunden
Die Betriebsausgaben für große Sprachmodelle variieren erheblich, hauptsächlich basierend auf ihrer Größe. Llama 2 ist in mehreren Konfigurationen erhältlich, wobei die größte Version über 70 Milliarden Parameter verfügt. Größere Modelle erfordern erhebliche Rechenleistung für Training und Ausführung, bieten jedoch oft eine verbesserte Leistung.
Victor Botev, CTO und Mitgründer von Iris.ai, merkt an, dass Parameter durch Techniken wie Quantisierung optimiert werden können, um die Betriebskosten zu senken. Zwar kann dies die Ausgaben reduzieren, birgt jedoch das Risiko, die Antwortqualität zu mindern, sodass die Entscheidung sorgfältig entsprechend den Benutzerbedürfnissen abgewogen werden muss.
Für On-Premises-Implementierungen benötigen Modelle mit weniger als 100 Milliarden Parametern mindestens eine DGX-Box, die etwa 200.000 USD kostet. Die jährlichen Hardwarekosten für den Betrieb von Llama 2 On-Premises können etwa 65.000 USD betragen. In Cloud-Umgebungen variieren die Betriebskosten je nach Modellgröße. Für Modelle mit weniger als 15 Milliarden Parametern belaufen sich die monatlichen Ausgaben auf etwa 1.000 USD oder 12.000 USD jährlich, während bei Modellen mit rund 70 Milliarden Parametern die Kosten auf etwa 1.500 USD pro Monat steigen, insgesamt 18.000 USD jährlich.
Die meisten Modelle erfüllen kaum die Qualitätsstandards der Unternehmen, wodurch zahlreiche Feinabstimmungstechniken erforderlich werden. Prompt Tuning ist die kostengünstigste Methode mit Preisen von 10 bis 1.000 USD, während die Kosten für Instruction Tuning von 100 bis 10.000 USD reichen. Das Fine-Tuning, das grundlegende Modellattribute verändert, kann unvorhersehbar sein und liegt im Durchschnitt bei etwa 100.000 USD für kleinere Modelle (1-5 Milliarden Parameter) und kann für größere Konfigurationen in die Millionen gehen.
Ein Wandel zu kleineren Modellen
Angesichts dieser Überlegungen bietet das Aufkommen kleinerer, kostengünstiger Modelle für spezifische Anwendungen eine vielversprechende Alternative. Varianten von Llama 2 mit sieben Milliarden und 13 Milliarden Parametern sind bereits erhältlich, und innovative Modelle wie Microsofts Phi 1.5 und EleutherAIs Pythia-1b gewinnen an Bedeutung.
Dennoch betont Lian Jye Su, Hauptanalyst bei Omdia, dass Open-Source-Angebote selten günstig sind, insbesondere wenn Anpassungen oder Verbesserungen erforderlich sind. Außerdem, während alle OpenAI-Modelle proprietär sind, ziehen es einige Unternehmen möglicherweise vor, Umsätze durch Lizenzgebühren oder Tantiemen zu vermeiden, wodurch die Modellkosten in den Hintergrund treten.
Anurag Gurtu, CPO von StrikeReady, hebt hervor, dass Startups die Modellkosten mit potenziellen Renditen abwägen müssen. „KI-Modelle können Innovationen fördern, Benutzererfahrungen verbessern und Abläufe optimieren. Während wir voranschreiten, wird das Aufkommen effizienterer Modelle und kostengünstigerer Lösungen die KI für Startups und Entwickler zugänglicher machen,” prognostiziert er.
Zugang zu Rechenressourcen
Ein weiterer wesentlicher Faktor, der die Betriebskosten beeinflusst, ist der Zugang zu Hardware. In der aktuellen Wettbewerbssituation sind Unternehmen bestrebt, KI-Technologien einzusetzen, was robuste Rechenressourcen erfordert. Die Nachfrage hat jedoch das Angebot übertroffen. Nvidia, ein Marktführer, berichtete kürzlich von einer beträchtlichen Nachfrage nach seinen GPUs mit erheblichen Lieferungen im zweiten Quartal. Während Konkurrenten wie AMD und Intel ihre eigenen KI-Chips bereitstellen, wird der zuverlässige Zugang zu Rechenleistung entscheidend.
Mit begrenzter Hardwareverfügbarkeit könnten Unternehmen mit erhöhten Kosten konfrontiert werden, um ihre Rechenanforderungen zu erfüllen. Mietbare GPUs von Anbietern wie Hugging Face, NexGen Cloud und AWS sind verfügbar, doch die intensiven Anforderungen von Modellen wie Llama 2 erfordern leistungsstarke Rechenressourcen.
Tara Waters, Chief Digital Officer und Partnerin bei Ashurst, merkt an, dass die verbrauchsabhängige Preiskalkulation öffentlicher Modelle einige Startups davon abhalten könnte, potenziellen Kunden eine Erprobung vor dem Kauf zu ermöglichen. Während die Verfügbarkeit von Open-Source-Modellen einige Herausforderungen abmildern könnte, bringt sie neue Hürden mit sich, wie die Notwendigkeit geeigneter Infrastruktur, um diese Modelle effektiv zu hosten und bereitzustellen.
Mit dem sich entwickelnden Umfeld entstehen innovative Strategien, um den Verbrauch und die Kosten von KI-Modellen zu managen. Die Erkundung von Prompt-Engineering ohne Modellhosting oder die Entwicklung interm