Große Sprachmodelle (LLMs) stoßen häufig auf faktische und logische Fehler, insbesondere bei komplexen Denkaufgaben. Um dieses Problem zu verringern, setzen Forscher oft Verifier oder Belohnungsmodelle ein, um die genauesten Antworten aus einer Vielzahl von von LLMs generierten Ausgaben auszuwählen.
Ein aktuelles Paper von Forschern von Google DeepMind, der Universität Toronto, Mila und der Universität von Kalifornien, Los Angeles stellt GenRM vor, einen innovativen Ansatz, der die generativen Fähigkeiten von LLMs nutzt, um den Verifizierungsprozess zu verbessern. GenRM ist ein wertvolles Werkzeug für LLM-basierte Anwendungen, bei denen traditionelle Verifizierungsmethoden nicht ausreichen.
Einschränkungen klassischer Verifier und Belohnungsmodelle
Ein verbreiteter Ansatz zur Steigerung der LLM-Genauigkeit besteht darin, mehrere Kandidatantworten zu generieren und ein separates Komponenten zu nutzen, um die beste zu identifizieren. Dafür ist ein zuverlässiger Verifier oder Belohnungsmodell erforderlich. Üblicherweise werden LLM-basierte Verifier als diskriminierende Belohnungsmodelle (RMs) trainiert, die numerische Punkte vergeben, um Kandidatenlösungen als korrekt oder falsch zu bewerten. Diese RMs nutzen jedoch nicht vollständig die besonderen Stärken der LLMs in der Generierung und Verarbeitung von Antworten.
„Obwohl klassische Belohnungsmodelle (RMs) / Verifier durch Feinabstimmung von LLMs trainiert werden, nutzen sie nicht die Textgenerierungsfähigkeiten, für die LLMs im Grunde entworfen wurden“, erklärt Rishabh Agarwal, Mitautor des Papers und Senior Research Scientist bei DeepMind. Eine andere häufig verwendete Technik, LLM-as-a-Judge, nutzt fortschrittliche Prompting-Methoden zur Bewertung von Antworten. Diese Methode bietet zwar Flexibilität, bleibt jedoch hinter den durch das Training erlangten Fähigkeiten der Belohnungsmodelle zurück.
Generative Belohnungsmodelle
DeepMinds GenRM bietet eine Alternative, indem es Verifier durch Vorhersage des nächsten Tokens trainiert und die generativen Stärken der LLMs nutzt. „Das Training von RMs durch Vorhersage des nächsten Tokens ermöglicht es, die zahlreichen Vorteile generativer LLMs zu nutzen“, sagt Agarwal. „Wir haben gezeigt, dass dasselbe Modell Lösungen verifizieren und generieren kann, indem es die Ketten der Gedankenbildung vor der Verifizierung anwendet, um die Genauigkeit zu steigern.“
In GenRM wird die Verifizierungsentscheidung als Token ausgedrückt. Zum Beispiel verwendet der Verifier, um einen Score für eine Lösung zu erstellen, einen Prompt wie „Ist die Antwort korrekt?“ und stellt den Score als Wahrscheinlichkeit eines Texttokens (z. B. „Ja“ oder „Nein“) basierend auf dem Kontext dar. Da die Verifizierung oft komplexes Denken erfordert, können generative Verifier erheblich von fortgeschrittenen Prompting-Techniken wie der Ketten-Denken (CoT)-Rationale profitieren, welche das Modell dazu anregt, seinen Denkprozess vor der Antwort zu skizzieren. „Konkret können wir zwischenmenschliche Gedankenschritte oder Kritiken (CoT) generieren, bevor wir die Richtigkeit der Lösung entscheiden, wodurch subtile Fehler aufgedeckt werden können, die von direkten Verifiern übersehen werden“, so die Forscher.
Die CoT-Rationales zum Training des GenRM-Modells können entweder aus menschlichen Eingaben oder einem anderen LLM abgeleitet werden. Während der Inferenz erstellt GenRM zunächst eine CoT-Rationale und verwendet dann die Wahrscheinlichkeit des „Ja“-Tokens, um einen Richtigkeitsscore zu bestimmen. Um die Genauigkeit von CoT-Verifern weiter zu steigern, setzten die Forscher Mehrheitsabstimmung ein. Sie nahmen mehrere CoT-Ketten und berechneten den Durchschnitt des „Ja“-Scores über alle Proben, um die Berechnungen zur Testzeit zu optimieren.
„GenRM kann als Verschmelzung von LLM-as-a-Judge mit klassischen Verifiern betrachtet werden; es stellt ein trainiertes LLM-as-a-Judge auf domainspezifischen Verifizierungsdaten dar“, erklärt Agarwal. „Daher ist GenRM für jeden Bereich geeignet, in dem Standard-LLMs nicht ausreichen.“
GenRM in der Praxis
Um die Wirksamkeit von GenRM zu testen, prüften die DeepMind-Forscher es in verschiedenen Denkaufgaben, einschließlich der Verknüpfung von letzten Buchstaben, Wortsortierung und mathematischen Wortproblemen. Sie verglichen GenRM mit Standardmethoden, einschließlich diskriminierender Belohnungsmodelle, LLM-as-a-Judge und „Selbstkonsistenz“, bei der das Modell mehrere Antworten generiert und die häufigste auswählt.
In allen Aufgaben übertraf GenRM unter Verwendung von CoT konsequent alternative Methoden um mehrere Prozentpunkte, einschließlich speziell trainierter diskriminierender Belohnungsmodelle. Im GSM8K-Mathematik-Referenzrahmen erzielte ein Gemma-9B-Modell, das für GenRM trainiert wurde, eine Problemlösungsrate von 92,8 %, die die Leistung von GPT-4 und Gemini 1.5 Pro übertraf.
„Durch die Vereinigung von Lösungs-Generierung und Verifizierung über das Next-Token-Prediction-Ziel verbessert GenRM konsequent die Verifizierungsleistung in allen Aufgaben“, stellen die Forscher fest. „Diese Verbesserung zeigt sich sowohl bei direkten als auch bei auf CoT basierenden generativen Verifiern, was darauf hinweist, dass es im Allgemeinen vorteilhaft ist, den Verifier dazu zu bringen, die korrekten Lösungen zu imitieren.“
Die Experimente zeigten auch, dass GenRM bei zunehmender Datenmenge und Modellkapazität günstig skaliert. Darüber hinaus zeigt GenRM mit CoT weiterhin Verbesserungen, wenn eine größere Anzahl von Antworten betrachtet wird, was LLM-Anwendungsentwicklern mehr Flexibilität bietet, um Genauigkeit und Rechenkosten in Einklang zu bringen.
„Im Vergleich zu klassischen Verifiern kann GenRM mit denselben Daten bessere Ergebnisse erzielen, indem es gemeinsam auf Generierung und Verifizierung trainiert wird, und das GenRM-Training erfordert lediglich eine Standardfeinabstimmung“, sagt Agarwal. „Um die Kapazitäten von GenRM jedoch vollständig auszuschöpfen, benötigen wir Kritiken oder Verifizierungsrationales, die das Belohnungslabel klären. Für hochwertige Daten kann dies menschliche Eingaben einschließen, aber eine skalierbare Lösung würde synthetische, von LLM generierte Rationales nutzen.“
Zukünftige Richtungen für GenRM könnten die Skalierung synthetischer Verifizierungsrationales für offene Generierungsaufgaben, die Integration von GenRM in Reinforcement-Learning-Pipelines und die Nutzung fortschrittlicher LLM-Fähigkeiten wie Few-Shot-Learning, retrieval-augmented generation, ReAct sowie Code-Generierung und -Ausführung zur weiteren Verbesserung der Verifizierung umfassen.