Forscher des Scaling Intelligence Lab der Stanford Universität haben ein neues Inferenz-Framework namens Archon vorgestellt, das die Effizienz großer Sprachmodelle (LLMs) bei der Generierung von Antworten verbessern soll. Archon nutzt einen Algorithmus zur Inferenz-Architektursuche (ITAS), der die Leistung von LLMs steigert, ohne zusätzliche Trainingsdaten zu erfordern. Dieses modellunabhängige, Open-Source-Framework lässt sich problemlos mit großen und kleinen Modellen implementieren.
Archon richtet sich an Entwickler, die KI-Systeme erstellen möchten, indem es verschiedene Inferenztechniken einsetzt, um die Antwortgenerierung zu optimieren. Laut dem Scaling Intelligence Lab können diese Techniken die Kosten für die Modellentwicklung und Inferenz erheblich senken. Während LLMs mit zunehmender Parameteranzahl und komplexerer Argumentation teurer werden, steigen die Kosten trotz der Erwartungen von Unternehmen wie OpenAI nach größerer Erschwinglichkeit.
Die Forscher betonen, dass Archon automatisch Architekturen erstellt, die die Aufgabenverallgemeinerung verbessern, wodurch Modelle Herausforderungen jenseits ihres ursprünglichen Trainingsumfangs bewältigen können. „Unser Archon-Framework und der ITAS-Algorithmus sind von neuronalen Architekturen und Architektur-Suchpraktiken inspiriert“, erklärten die Forscher. „Archon besteht aus Schichten von LLMs, in denen Modelle innerhalb derselben Schicht parallel arbeiten, während jede nachfolgende Schicht die Ergebnisse sequenziell verarbeitet.“
Diese Schichten verwenden verschiedene Inferenztechniken, um mögliche Antworten zu modifizieren, darunter Generierung und Fusion (wie lineare Transformationen) sowie Antwortverfeinerung (wie Nichte linearitäten).
In Benchmark-Tests, darunter MT-Bench, Arena-Hard-Auto, Alpaca-2.0 Eval, MixEval, MixEval Hard, MATH und CodeContests, übertraf Archon GPT-4o und Claude 3.5 Sonnet um 15,1 Prozentpunkte. Auch gegenüber Open-Source-LLMs erzielte es einen Vorsprung von 11,2 Prozentpunkten.
Komponenten von Archon
Der ITAS-Algorithmus umfasst mehrere Schlüsselkomponenten, die Inferenztechniken ausführen:
1. Generator: Generiert mögliche Antworten für das Modell.
2. Fuser: Kombiniert diese Antworten zu einer kohärenten Antwort. Wenn beispielsweise nach der Hauptstadt von Frankreich gefragt wird, synthetisiert er Antworten wie „Die Hauptstadt von Frankreich ist Paris“ und „Frankreich liegt in Europa“ zu einer Aussage: „Die Hauptstadt von Frankreich, einem Land in Europa, ist Paris.“
3. Ranker: Bewertet die generierten Antworten.
4. Critic: Bewertet die Qualität der eingestufte Antworten.
5. Verifier: Überprüft die logische Konsistenz und Richtigkeit.
6. Unit Test Generator und Evaluator: Führt kleine Tests durch, um die Genauigkeit der Antworten zu prüfen.
Der strukturierte Ansatz von Archon ermöglicht eine schnellere Verbesserung der Qualität der LLM-Antworten, ohne dass zusätzliche Feinabstimmungen erforderlich sind.
Einschränkungen von Archon
Derzeit erzielt Archon die besten Ergebnisse mit LLMs, die 70 Milliarden Parameter oder mehr haben, wie Meta’s Code Llama 70B. Diese Einschränkung resultiert aus der geringeren Fähigkeit kleinerer Modelle, Anweisungen zu folgen, da sie über schmalere Kontextfenster verfügen. Die Forschung zeigte einen signifikanten Leistungsrückgang von 16 %, als Archon auf 7B-Modelle angewendet wurde.
Darüber hinaus liegen Modelle, die das Archon-Framework verwenden, 15,7 % hinter Einzelfallmodellen zurück. Das Stanford-Labor stellte fest, dass Archon nicht für Anwendungen geeignet ist, die die schnelle Latenz eines einzelnen LLM-Aufrufs erfordern, wie etwa Chatbots. Seine Architektur umfasst mehrere LLM-Aufrufe, was es weniger effektiv für einfache Frage-Antwort-Aufgaben macht. Archon könnte jedoch bei komplexeren Aufgaben, die umfangreiche Anweisungen erfordern, wie Programmierung oder fortgeschrittene Kundenservicelösungen, besonders gut abschneiden.
Trotz dieser Herausforderungen hoffen die Forscher, dass Archon die Entwicklung leistungsstarker LLMs beschleunigen kann, ohne dass höhere Investitionen in Inferenz und Training erforderlich sind.