Fortschritte im KI-Reasoning: Einführung von Quiet-STaR
Menschen besitzen die einzigartige Fähigkeit zu denken, indem sie über „wenn“ und „warum“ nachdenken und implizite Informationen interpretieren, um komplexe Probleme zu lösen. Traditionelle KI-Modelle hatten jedoch Schwierigkeiten mit diesem Niveau des Denkens. Forscher der Stanford University und Notbad AI, Inc. haben Quiet-STaR entwickelt, eine innovative Erweiterung des Self-Taught Reasoner (STaR)-Modells, das der KI beibringt, vor der Antwort nachzudenken und dabei menschliche Denkprozesse nachzuahmen.
Verbesserungen durch Quiet-STaR
Quiet-STaR wurde auf dem Mistral 7B-Modell implementiert und hat die Fähigkeiten zur Zero-Shot-Reasoning erheblich verbessert. Bemerkenswerte Fortschritte wurden festgestellt in:
- CommonsenseQA: Frage-Antwort-Genauigkeit (von 36,3 % auf 47,2 %)
- GSM8K: Matheaufgaben für Grundschüler (von 5,9 % auf 10,9 %)
Diese Verbesserungen stehen in direktem Zusammenhang mit der Anzahl der Tokens, die die inneren Gedanken des Modells repräsentieren. Die Forscher erklären: „Quiet-STaR ist ein Schritt in Richtung Sprachmodelle, die lernen können, allgemeiner und skalierbarer zu denken.“
Bisherige Einschränkungen im KI-Reasoning
Frühere Ansätze im KI-Reasoning beruhen stark auf aufgabenspezifischem Training, was zu einer begrenzten Generalisierbarkeit führte. Modelle wurden häufig mit sorgfältig kuratierten Datensätzen trainiert, die sich auf enge Aufgaben konzentrierten, was ihre Anpassungsfähigkeit an ein breiteres Spektrum von Szenarien einschränkte.
Ein Beispiel: Während ein Sprachmodell, das auf menschliches Denken feingetunt wurde, einem direkten Antwort-KI überlegen war, blieben diese Methoden auf spezifische Datensätze beschränkt. Das STaR-Modell zeigte, dass KIs ihre Denkfähigkeiten durch iteratives Lernen aus Frage-Antwort-Datensätzen verbessern können, aber die Abhängigkeit von kuratierten Daten begrenzte die Skalierbarkeit. „Das Training mit diesen Datensätzen umfasst nur einen Bruchteil der Denkaufgaben“, argumentieren die Forscher und betonen die Notwendigkeit, dass Modelle aus vielfältigen Texteingaben Rationalitäten extrahieren.
Die Quiet-STaR-Methodologie
Die Quiet-STaR-Technik funktioniert, indem sie für jedes Token mehrere innere Gedanken erzeugt und einen „Denkprozess“ einleitet, bevor sie eine Antwort liefert. Dadurch kann die KI zukünftigen Text mit einem verbesserten Kontext bewerten. Durch den Einsatz des REINFORCE-Algorithmus optimiert das Modell seine Vorhersagen, verwirft weniger genaue Ausgaben und verfeinert sein Reasoning während des Trainings iterativ.
Um allgemeines Denken zu fördern, verwendeten die Forscher einen Zero-Shot-Prompt („Lass uns Schritt für Schritt nachdenken“) und trainierten Quiet-STaR mit verschiedenen Web-Textdatensätzen wie OpenWebMath und Colossal Clean Crawled Corpus. „Quiet-STaR ermöglicht es einem Modell, auf jedem Token-Niveau leise zu denken, was eine Verteilung erleichtert, die die Nützlichkeit erhöht“, fügen sie hinzu.