Während große Sprachmodelle (LLMs) zunehmend in der Lage sind, komplexe Aufgaben zu bewältigen, fällt es ihnen oft schwer, auf den ersten Versuch hin genaue Antworten zu liefern. Dies hat das Interesse an der Verbesserung ihrer Fähigkeit zur Fehlererkennung und -korrektur geweckt – einem Prozess, der als "Selbstkorrektur" bekannt ist. Bestehende Methoden zur Selbstkorrektur sind jedoch begrenzt und erfüllen häufig nicht die Anforderungen der realen Welt.
In einer bahnbrechenden Studie präsentieren Forscher von Google DeepMind Self-Correction via Reinforcement Learning (SCoRe), einen neuartigen Ansatz, der die Selbstkorrekturfähigkeiten von LLMs erheblich steigert, indem er ausschließlich auf selbst-generierten Daten basiert. SCoRe hat das Potenzial, die Zuverlässigkeit und Robustheit von LLMs zu erhöhen und neue Möglichkeiten zur Verbesserung ihrer Denk- und Problemlösungsfähigkeiten zu eröffnen.
"Selbstkorrektur verbessert das menschliche Denken enorm", sagt Aviral Kumar, Forschungscientist bei Google DeepMind. "Menschen nehmen sich oft Zeit, um mehrere Ideen zu durchdenken und ihre Fehler zu korrigieren, um letztendlich zur richtigen Lösung zu gelangen. Wir möchten, dass LLMs dasselbe tun."
Ein ideales LLM mit starken Selbstkorrekturfähigkeiten sollte in der Lage sein, seine eigenen Antworten zu bewerten und zu verfeinern, bis es die korrekte Antwort erreicht. Dies ist entscheidend, da LLMs oft über das nötige Wissen verfügen, um Probleme zu lösen, jedoch Schwierigkeiten haben, dieses Wissen in ihren ersten Antworten effektiv zu nutzen.
"Aus einer grundlegenden Perspektive des maschinellen Lernens erwarten wir nicht, dass LLMs schwierige Probleme beim ersten Versuch lösen", erklärt Kumar. "Deshalb möchten wir, dass LLMs mehr Rechenkraft in das Denken und die Selbstkorrektur investieren, um bei herausfordernden Problemen erfolgreich zu sein."
Frühere Versuche, Selbstkorrektur in LLMs zu ermöglichen, stützten sich auf die Anpassung von Eingabeaufforderungen oder das Fine-Tuning von Modellen, was oft externes Feedback oder Anleitungen durch ein "Oracle" erforderte. Diese bestehenden Techniken vernachlässigen häufig die intrinsischen Selbstkorrekturfähigkeiten des Modells. Überwachtes Fine-Tuning (SFT) beispielsweise ist stark von Feedback menschlicher Annotatoren oder leistungsstärkerer Modelle abhängig, was seine Anwendbarkeit in der realen Welt einschränkt. Zudem erfordern SFT-Methoden manchmal mehrere Modelle während der Inferenz zur Verifizierung, was die Implementierung kompliziert.
Die Forschung von DeepMind zeigt, dass SFT die anfänglichen Ausgaben eines Modells zwar verbessern kann, jedoch versagt, wenn das Modell Antworten über mehrere Schritte hinweg überarbeiten muss - eine häufige Anforderung bei komplexen Problemen. "Am Ende des Trainings kann es sein, dass ein Modell lernt, die Fehler des Basismodells zu beheben, jedoch nicht in der Lage ist, seine eigenen Fehler zu erkennen", merkt Kumar an.
Ein weiterer Nachteil von SFT ist das Potenzial für unbeabsichtigtes Verhalten, bei dem das Modell lernt, die optimale Antwort beim ersten Versuch zu geben, ohne sie anzupassen, selbst wenn sie falsch ist. "SFT-trainierte Modelle neigen dazu, eine 'direkte' Strategie zu bevorzugen, anstatt den Selbstkorrekturprozess zu erlernen", fügt er hinzu.
Fortschritte durch Verstärkendes Lernen
Um diese Einschränkungen zu überwinden, haben sich die DeepMind-Forscher dem verstärkenden Lernen (RL) zugewandt. "Derzeit führen LLMs keine effektive Selbstkorrektur durch", erklärt Kumar. "Sie sind nicht darauf trainiert, über vergangene Fehler nachzudenken; stattdessen versuchen sie, die beste Antwort auf Fragen zu generieren. Daher haben wir Methoden zur Selbstkorrektur entwickelt."
SCoRe lehrt ein einzelnes Modell, sowohl Antworten zu generieren als auch seine Fehler unabhängig zu korrigieren, ohne externes Feedback zu benötigen. Dies geschieht durch Training ausschließlich mit selbst-generierten Daten, was die Abhängigkeit von externen Informationen eliminiert.
Frühere RL-Ansätze zur Selbstkorrektur stützten sich hauptsächlich auf Ein-Wende-Interaktionen, was zu Verhaltenszusammenbrüchen führte, bei denen das Modell Selbstkorrekturanweisungen ignorierte und stattdessen eine beste Vermutung direkt aus dem Gedächtnis lieferte. "Naive RL-Methoden führten dazu, dass Modelle den Selbstkorrekturanstoß ignorierten und sich nur darauf konzentrierten, eine Null-Schuss-Antwort zu erstellen", sagt Kumar.
Um Verhaltenszusammenbrüche zu bekämpfen, verwendet SCoRe einen zweistufigen Trainingsprozess, der durch Regularisierungstechniken optimiert wird. Die erste Stufe optimiert die Korrekturleistung und sorgt dafür, dass die anfänglichen Antworten des Modells mit den Ausgaben des Basismodells übereinstimmen. Die zweite Stufe nutzt mehrstufiges RL, um die Leistung sowohl bei den ersten als auch bei den folgenden Versuchen zu verbessern und ein Belohnungssystem zu integrieren, das das Modell motiviert, seine Antworten über mehrere Iterationen hinweg zu verbessern.
"Dieser doppelte Ansatz stellt sicher, dass das Modell nicht nur lernt, die beste erste Antwort zu liefern und sie minimal anzupassen", erklären die Forscher. "Insgesamt nutzt SCoRe effektiv das Wissen des Basismodells für eine positive Selbstkorrektur."
SCoRe in Aktion
Die DeepMind-Forscher evaluieren SCoRe im Vergleich zu bestehenden Selbstkorrekturm ethoden mithilfe selbst-generierter Daten, wobei der Fokus auf Mathematik- und Programmieraufgaben wie MATH, MBPP und HumanEval liegt.
SCoRe zeigte signifikante Verbesserungen in den Selbstkorrekturfähigkeiten der Modelle Gemini 1.0 Pro und 1.5 Flash, mit einem absoluten Gewinn von 15,6 % im MATH-Benchmark und einem Gewinn von 9,1 % im HumanEval im Vergleich zum Basismodell und übertraf damit andere Selbstkorrekturtechniken.
Die bemerkenswerteste Verbesserung war die Fähigkeit des Modells, seine Fehler vom ersten zum zweiten Versuch zu verfeinern, während es fehlerhafte Änderungen an korrekten Antworten minimierte. SCoRe erwies sich auch als äußerst effizient in Kombination mit Skalierungsstrategien zur Inferenzzeit, was die Leistung weiter steigerte, indem dasselbe Inferenzbudget über mehrere Korrekturrunden verteilt wurde.
Obwohl die Forschung hauptsächlich auf Programmier- und Denkaufgaben ausgerichtet ist, glaubt das Team, dass SCoRe breitere Anwendungen haben kann. "Stellen Sie sich Modelle vor, die potenziell unsichere Ausgaben erkennen und sie unabhängig verbessern, bevor sie für den Benutzer sichtbar werden", schlägt Kumar vor.
Diese Arbeit unterstreicht die Bedeutung, LLMs beizubringen, wie sie denken und sich selbst korrigieren können, anstatt lediglich Eingaben in Ausgaben zuzuordnen, und ebnet den Weg für leistungsfähigere und zuverlässigere KI-Systeme.