Im Rennen um die Entwicklung immer größerer Sprachmodelle (LLMs) zeigen sich deutliche Trends: Klein ist das neue Groß. Während Fortschritte bei LLMs Anzeichen einer Stagnation zeigen, richten Forscher und Entwickler ihr Augenmerk zunehmend auf kleinere Sprachmodelle (SLMs). Diese kompakten, effizienten und anpassungsfähigen Modelle verändern die KI-Landschaft und stellen die Vorstellung in Frage, dass eine größere Modellgröße immer besser ist.
Beweisen LLMs eine Stagnation?
Leistungsanalysen von Vellum und HuggingFace zeigen, dass der Abstand zwischen LLMs kleiner wird. Dies ist besonders bei Aufgaben wie Multiple-Choice-Fragen, Logik und Matheproblemen zu beobachten, wo die besten Modelle minimale Leistungsunterschiede aufweisen. Beispielsweise erreichen Claude 3 Opus, GPT-4 und Gemini Ultra in Multiple-Choice-Szenarien Werte über 83%. Auch bei Logikaufgaben sind die Ergebnisse mit über 92% Genauigkeit sehr konkurrenzfähig.
Interessanterweise erzielen kleinere Modelle wie Mixtral 8x7B und Llama 2 – 70B in bestimmten Bereichen vielversprechende Ergebnisse und übertreffen dabei sogar einige größere Modelle. Das deutet darauf hin, dass Faktoren wie Architektur, Trainingsdaten und Feinabstimmung entscheidend für die Leistung sein könnten und die Überzeugung herausfordern, dass die Größe der Hauptfaktor ist.
Gary Marcus, ehemaliger Leiter von Uber AI und Autor von „Rebooting AI“, weist darauf hin, dass aktuelle Forschungen auf eine Konvergenz der Modellleistungen hinweisen. “Obwohl einige neue Modelle GPT-4 leicht übertreffen können, gab es seit über einem Jahr keine signifikanten Fortschritte”, sagt Marcus.
Mit der Schließung der Leistungslücke stellt sich die Frage, ob LLMs tatsächlich stagnieren. Sollte dieser Trend anhalten, könnte die zukünftige KI-Entwicklung von einer bloßen Vergrößerung der Modellgröße hin zu effizienteren, spezialisierten Architekturen abweichen.
Nachteile des LLM-Ansatzes
Trotz ihrer Leistungsfähigkeit haben LLMs erhebliche Nachteile. Das Training dieser Modelle erfordert riesige Datensätze und immense Rechenressourcen, was den Prozess sehr ressourcenintensiv macht. Beispielsweise gab OpenAI-CEO Sam Altman an, dass das Training von GPT-4 mindestens 100 Millionen Dollar gekostet hat. Die Komplexität von LLMs stellt für Entwickler eine steile Lernkurve dar und schafft Barrieren zur Zugänglichkeit. Unternehmen benötigen möglicherweise 90 Tage oder länger, um ein einzelnes maschinenlernendes Modell bereitzustellen, was die Innovation verlangsamt.
Ein weiteres Problem ist die Neigung von LLMs, „Halluzinationen“ zu erzeugen, also Ausgaben zu produzieren, die plausibel erscheinen, aber falsch sind. Diese Limitation entsteht, weil LLMs Wörter basierend auf Trainingsmustern vorhersagen, ohne echtes Verständnis. Daher können falsche oder unsinnige Ergebnisse mit hoher Überzeugungskraft auftreten, was in sicherheitskritischen Anwendungen wie Gesundheitswesen und autonomem Fahren Risiken mit sich bringt.
Die großangelegte und opake Struktur von LLMs erschwert die Interpretation und Fehlersuche, die entscheidend sind, um Vertrauen in die Ausgaben zu gewährleisten. Bevorzugt trainierte Daten können zudem zu schädlichen Ergebnissen führen, während Versuche, LLMs zuverlässiger zu machen, deren Effektivität unbeabsichtigt verringern können.
Die Lösung: Kleinere Sprachmodelle (SLMs)
SLMs bieten Lösungen für viele der Herausforderungen, die LLMs mit sich bringen. Mit weniger Parametern und einfacheren Designs erfordern SLMs weniger Daten und Trainingszeit – oft nur Minuten oder wenige Stunden, im Gegensatz zu LLMs, die Tage in Anspruch nehmen. Diese Effizienz ermöglicht eine leichtere Implementierung auf kleineren Geräten.
Ein wesentlicher Vorteil von SLMs ist ihre Anpassungsfähigkeit für spezifische Anwendungen. Sie können für Bereiche wie Sentiment-Analyse oder domänenspezifisches Fragen und Antworten feinabgestimmt werden, was zu einer überlegenen Leistung im Vergleich zu Mehrzweckmodellen führt. Diese Spezialisierung verbessert die Effizienz in gezielten Aufgaben.
Darüber hinaus bieten SLMs erhöhte Datenschutz- und Sicherheitsstandards. Ihre einfachere Architektur erleichtert die Prüfung und macht sie weniger anfällig für Schwachstellen, was in Branchen wie Gesundheitswesen und Finanzen entscheidend ist. Durch die reduzierten Rechenanforderungen können SLMs lokal auf Geräten ausgeführt werden, was die Datensicherheit erhöht und Risiken bei der Datenübertragung minimiert.
SLMs sind weniger anfällig für Halluzinationen, da sie in der Regel auf engmaschigen Datensätzen trainiert werden, die für ihre Anwendungen relevant sind. Dieser Fokus reduziert die Wahrscheinlichkeit, irrelevante Ausgaben zu generieren, und führt zu einer zuverlässigeren Leistung.
Clem Delangue, CEO von HuggingFace, schlägt vor, dass bis zu 99% der Anwendungsfälle mit SLMs effektiv adressiert werden könnten, und prognostiziert, dass 2024 ein Anstieg ihrer Verwendung zu erwarten ist. HuggingFace hat mit Google kooperiert und seine Plattform in Google’s Vertex AI integriert, was eine schnelle Bereitstellung von Tausenden von Modellen ermöglicht.
Initiative Gemma von Google
Nachdem Google zunächst im Rennen um die LLM-Entwicklung hinter OpenAI zurückgeblieben war, verfolgt das Unternehmen nun intensiv die Entwicklung von SLMs. Im Februar wurde Gemma eingeführt, eine Reihe kleiner Sprachmodelle, die für Effizienz und Benutzerfreundlichkeit konzipiert sind. Diese Modelle können auf Standardgeräten wie Smartphones und Laptops betrieben werden, ohne umfangreiche Ressourcen zu benötigen.
Seit ihrer Veröffentlichung wurden die trainierten Gemma-Modelle über 400.000 Mal auf HuggingFace heruntergeladen, was innovative Projekte angestoßen hat. Ein bemerkenswerter Fortschritt ist Cerule, ein leistungsstarkes Bild- und Sprachmodell, das Gemma 2B mit Googles SigLIP kombiniert und ohne umfangreiche Daten gut funktioniert. Ein weiteres Beispiel ist CodeGemma, eine spezialisierte Version, die sich auf Codierung und mathematisches Denken konzentriert und angepasste Modelle für verschiedene codierungsbezogene Aktivitäten bereitstellt.
Das transformative Potenzial von SLMs
Während die KI-Community die Vorteile von SLMs näher untersucht, werden die Vorteile schnelleren Entwicklungszyklen, verbesserter Effizienz und gezielter Lösungen immer deutlicher. SLMs könnten den Zugang zur KI demokratisieren und Innovationen in verschiedenen Branchen vorantreiben, indem sie kosteneffektive und spezifische Anwendungen ermöglichen.
Die Bereitstellung von SLMs am Rand eröffnet Möglichkeiten für Echtzeit-, personalisierte und sichere Anwendungen in Branchen wie Finanzen, Unterhaltung, Automobil, Bildung, E-Commerce und Gesundheitswesen. Durch die lokale Datenverarbeitung und die Minimierung der Abhängigkeit von Cloud-Infrastrukturen verbessern SLMs den Datenschutz und das Benutzererlebnis.
Während LLMs mit Herausforderungen hinsichtlich des Rechenbedarfs und möglicher Leistungsplateaus konfrontiert sind, verspricht der Aufstieg der SLMs, das KI-Ökosystem in einem beeindruckenden Tempo voranzutreiben.