Menschliche Bewertung großer Sprachmodelle: Der Bedarf an Innovation
Die menschliche Bewertung gilt seit langem als der Goldstandard zur Bewertung der Qualität und Genauigkeit großer Sprachmodelle (LLMs), insbesondere in offenen Aufgabenbereichen wie kreativem Schreiben und Programmieren. Diese Methode ist jedoch oft langsam, kostspielig und erfordert spezielles Fachwissen.
Einführung des Selbstgelernten Evaluators
Forscher von Meta FAIR haben einen bahnbrechenden Ansatz namens Selbstgelernten Evaluator entwickelt, der synthetische Daten nutzt, um LLM-Evaluatoren ohne menschliche Annotationen zu trainieren. Trotz einiger Einschränkungen verspricht diese Methode, die Effizienz und Skalierbarkeit der LLM-Bewertung zu verbessern, insbesondere für Unternehmen, die maßgeschneiderte Modelle entwickeln möchten.
Die Herausforderungen der LLM-Bewertung
LLMs dienen häufig als Evaluatoren, um andere Modelle an menschliche Präferenzen anzupassen oder deren Leistung während des Trainings zu verbessern. Dies ist entscheidend in Aufgaben mit mehreren gültigen Ergebnissen, die in kreativen und komplexen Szenarien häufig vorkommen. Traditionell hängt das Training präziser LLM-Evaluatoren von umfangreichen, menschlich annotierten Daten ab, einem kostspieligen und zeitaufwendigen Prozess, der die schnelle Entwicklung von LLM-gestützten Anwendungen behindert.
So funktioniert der Selbstgelernten Evaluator
Der Selbstgelernten Evaluator löst dieses Problem, indem er die Notwendigkeit menschlich gelabelter Daten eliminiert. Er basiert auf dem Konzept LLM-as-a-Judge, bei dem das Modell eine Eingabe, zwei mögliche Antworten und einen Bewertungsauftrag erhält, um zu bestimmen, welche Antwort überlegen ist, indem es eine Argumentationskette generiert. Der Prozess beginnt mit einem Ausgangs-LLM und einer umfangreichen Sammlung unlabeled menschlicher Anweisungen, die häufig in Produktionssystemen vorkommen. Der Evaluator wählt einen Satz von Anweisungen aus diesem unkuratierten Pool aus und generiert Antwortpaare: eine „ausgewählte“, die als höherwertig gilt, und eine „abgelehnte“.
Der Evaluator wird dann iterativ trainiert. In jeder Iteration werden mehrere LLM-as-a-Judge-Argumentationspfade und -Urteile ausgewählt. Korrekte Argumentationsketten werden in den Trainingsdatensatz aufgenommen und bestehen aus der Eingabe, wahren und falschen Antworten sowie Urteilsreihen. Das Modell wird anhand dieses neuen Datensatzes feinjustiert, was zu einem aktualisierten Modell für nachfolgende Iterationen führt.
Test des Selbstgelernten Evaluators
Die Forscher initiierten ihren Selbstgelernten Evaluator mithilfe des Llama 3-70B-Instruct-Modells und verwendeten den WildChat-Datensatz, wobei sie über 20.000 Beispiele für Argumentationskategorien auswählten. Sie erkundeten auch andere Datensätze und Aufgaben, einschließlich Programmierung und Wortmathematikprobleme, wodurch die Selbstlernpipeline die kompletten Antworten und den Trainingsdatensatz autonom generieren konnte.
Ihre Experimente zeigten, dass der Selbstgelernten Evaluator die Genauigkeit des Basis-Modells im RewardBench-Benchmark erheblich steigerte, von 75,4 % auf 88,7 % über fünf Iterationen, ohne menschliche Annotationen. Diese Genauigkeit rivalisiert und übertrifft in einigen Fällen Modelle, die auf menschlich gelabelten Daten trainiert wurden, und übertrifft sogar bestimmte private Spitzenmodelle. Ähnliche Verbesserungen wurden im MT-Bench-Benchmark beobachtet, der die Leistung von LLMs in mehrteiligen Gesprächen bewertet.
Implikationen für Unternehmen
Diese Forschung entspricht einem wachsenden Trend zur Nutzung von LLMs in automatisierten Selbstverbesserungsschleifen, die den manuellen Aufwand bei der Erstellung leistungsstarker Modelle reduzieren und die Entwicklung skalierbarer KI-Anwendungen erleichtern. Der Selbstgelernten Evaluator ist besonders vorteilhaft für Unternehmen mit großen Mengen unlabeled Unternehmensdaten, die Modelle ohne umfassende manuelle Annotationen verfeinern möchten.
Es ist jedoch wichtig, einige Einschränkungen zu beachten. Der Ansatz basiert auf einem anfänglichen Seed-Modell, das anweisungsoptimiert und an menschliche Präferenzen angepasst ist. Die Forscher verwendeten das Mixtral 8x22B Mischung-aus-Experten-Modell für ihren anfänglichen Trainingsdatensatz, was die Notwendigkeit unterstreicht, relevante Seed- und Basis-Modelle sorgfältig gemäß spezifischen Daten und Aufgaben auszuwählen.
Standardisierte Benchmarks erfassen möglicherweise nicht vollständig die Fähigkeiten und Einschränkungen eines LLM. Zudem könnten vollständig automatisierte Schleifen, die ausschließlich auf LLMs zur Selbstevaluation angewiesen sind, darauf optimieren, Benchmarks zu erfüllen, während sie in realen Anwendungen unterperformen. Unternehmen sollten manuelle Tests in verschiedenen Trainingsphasen durchführen, um sicherzustellen, dass die Modelle ihren gewünschten Leistungsstandards entsprechen.