Google DeepMind stellt den generativen Evaluator GenRM vor, um die Denkfähigkeiten von KI zu verbessern
Am 27. August 2023 veröffentlichte das Team von Google DeepMind ein Paper auf arXiv, das ihren innovativen generativen Evaluator GenRM vorstellt. Dieses neue Belohnungsmodell zielt darauf ab, die Denkfähigkeiten generativer KI erheblich zu steigern.
Derzeit wird zur Verbesserung großer Sprachmodelle (LLMs) hauptsächlich der "Best-of-N"-Ansatz verwendet. Bei dieser Technik werden N Lösungsvorschläge generiert, die von einem Evaluator bewertet werden, um die beste Option zu bestimmen. Traditionelle LLM-Evaluatoren fungieren jedoch meist nur als diskriminative Klassifikatoren und nutzen nicht vollständig die Textgenerierungsfähigkeiten vortrainierter LLMs.
Um dieses Manko zu beheben, hat das DeepMind-Team den Evaluator mithilfe der Vorhersage des nächsten Tokens trainiert und dabei sowohl Validierung als auch Lösungsfindung integriert. GenRM bietet mehrere einzigartige Vorteile im Vergleich zu herkömmlichen Evaluatoren:
- Nahtlose Integration von Anweisungsanpassungen
- Unterstützung für Denkprozesse in Ketten
- Berechnung zusätzlicher Denkzeiten mittels Mehrheitsabstimmung
Bei Aufgaben, die Algorithmen und grundlegende mathematische Überlegungen betreffen, übertraf GenRM sowohl diskriminative Evaluatoren als auch LLM-als-Richter-Evaluatoren in Tests mit Gemma-basierten Evaluatoren und erzielte eine Steigerung der Problemlösungsquote um 16 % bis 64 %.
Google DeepMind betont, dass GenRM eine wesentliche Weiterentwicklung der KI-Belohnungssysteme darstellt, die insbesondere dazu beiträgt, potenziell betrügerisches Verhalten beim Training neuer Modelle zu verhindern. Dieser Fortschritt verdeutlicht die Notwendigkeit, Belohnungsmodelle zu verfeinern, um sicherzustellen, dass KI-Ausgaben den Standards gesellschaftlicher Verantwortung entsprechen.