Metas selbstgelerntes Bewertungssystem befähigt LLMs, eigene Trainingsdaten zu generieren.

Home KI-Nachrichten Metas selbstgelerntes Bewertungssystem befähigt LLMs, eigene Trainingsdaten zu generieren.

Menschliche Bewertung großer Sprachmodelle: Der Bedarf an Innovation

Die menschliche Bewertung gilt seit langem als der Goldstandard zur Bewertung der Qualität und Genauigkeit großer Sprachmodelle (LLMs), insbesondere in offenen Aufgabenbereichen wie kreativem Schreiben und Programmieren. Diese Methode ist jedoch oft langsam, kostspielig und erfordert spezielles Fachwissen.

Einführung des Selbstgelernten Evaluators

Forscher von Meta FAIR haben einen bahnbrechenden Ansatz namens Selbstgelernten Evaluator entwickelt, der synthetische Daten nutzt, um LLM-Evaluatoren ohne menschliche Annotationen zu trainieren. Trotz einiger Einschränkungen verspricht diese Methode, die Effizienz und Skalierbarkeit der LLM-Bewertung zu verbessern, insbesondere für Unternehmen, die maßgeschneiderte Modelle entwickeln möchten.

Die Herausforderungen der LLM-Bewertung

LLMs dienen häufig als Evaluatoren, um andere Modelle an menschliche Präferenzen anzupassen oder deren Leistung während des Trainings zu verbessern. Dies ist entscheidend in Aufgaben mit mehreren gültigen Ergebnissen, die in kreativen und komplexen Szenarien häufig vorkommen. Traditionell hängt das Training präziser LLM-Evaluatoren von umfangreichen, menschlich annotierten Daten ab, einem kostspieligen und zeitaufwendigen Prozess, der die schnelle Entwicklung von LLM-gestützten Anwendungen behindert.

So funktioniert der Selbstgelernten Evaluator

Der Selbstgelernten Evaluator löst dieses Problem, indem er die Notwendigkeit menschlich gelabelter Daten eliminiert. Er basiert auf dem Konzept LLM-as-a-Judge, bei dem das Modell eine Eingabe, zwei mögliche Antworten und einen Bewertungsauftrag erhält, um zu bestimmen, welche Antwort überlegen ist, indem es eine Argumentationskette generiert. Der Prozess beginnt mit einem Ausgangs-LLM und einer umfangreichen Sammlung unlabeled menschlicher Anweisungen, die häufig in Produktionssystemen vorkommen. Der Evaluator wählt einen Satz von Anweisungen aus diesem unkuratierten Pool aus und generiert Antwortpaare: eine „ausgewählte“, die als höherwertig gilt, und eine „abgelehnte“.

Der Evaluator wird dann iterativ trainiert. In jeder Iteration werden mehrere LLM-as-a-Judge-Argumentationspfade und -Urteile ausgewählt. Korrekte Argumentationsketten werden in den Trainingsdatensatz aufgenommen und bestehen aus der Eingabe, wahren und falschen Antworten sowie Urteilsreihen. Das Modell wird anhand dieses neuen Datensatzes feinjustiert, was zu einem aktualisierten Modell für nachfolgende Iterationen führt.

Test des Selbstgelernten Evaluators

Die Forscher initiierten ihren Selbstgelernten Evaluator mithilfe des Llama 3-70B-Instruct-Modells und verwendeten den WildChat-Datensatz, wobei sie über 20.000 Beispiele für Argumentationskategorien auswählten. Sie erkundeten auch andere Datensätze und Aufgaben, einschließlich Programmierung und Wortmathematikprobleme, wodurch die Selbstlernpipeline die kompletten Antworten und den Trainingsdatensatz autonom generieren konnte.

Ihre Experimente zeigten, dass der Selbstgelernten Evaluator die Genauigkeit des Basis-Modells im RewardBench-Benchmark erheblich steigerte, von 75,4 % auf 88,7 % über fünf Iterationen, ohne menschliche Annotationen. Diese Genauigkeit rivalisiert und übertrifft in einigen Fällen Modelle, die auf menschlich gelabelten Daten trainiert wurden, und übertrifft sogar bestimmte private Spitzenmodelle. Ähnliche Verbesserungen wurden im MT-Bench-Benchmark beobachtet, der die Leistung von LLMs in mehrteiligen Gesprächen bewertet.

Implikationen für Unternehmen

Diese Forschung entspricht einem wachsenden Trend zur Nutzung von LLMs in automatisierten Selbstverbesserungsschleifen, die den manuellen Aufwand bei der Erstellung leistungsstarker Modelle reduzieren und die Entwicklung skalierbarer KI-Anwendungen erleichtern. Der Selbstgelernten Evaluator ist besonders vorteilhaft für Unternehmen mit großen Mengen unlabeled Unternehmensdaten, die Modelle ohne umfassende manuelle Annotationen verfeinern möchten.

Es ist jedoch wichtig, einige Einschränkungen zu beachten. Der Ansatz basiert auf einem anfänglichen Seed-Modell, das anweisungsoptimiert und an menschliche Präferenzen angepasst ist. Die Forscher verwendeten das Mixtral 8x22B Mischung-aus-Experten-Modell für ihren anfänglichen Trainingsdatensatz, was die Notwendigkeit unterstreicht, relevante Seed- und Basis-Modelle sorgfältig gemäß spezifischen Daten und Aufgaben auszuwählen.

Standardisierte Benchmarks erfassen möglicherweise nicht vollständig die Fähigkeiten und Einschränkungen eines LLM. Zudem könnten vollständig automatisierte Schleifen, die ausschließlich auf LLMs zur Selbstevaluation angewiesen sind, darauf optimieren, Benchmarks zu erfüllen, während sie in realen Anwendungen unterperformen. Unternehmen sollten manuelle Tests in verschiedenen Trainingsphasen durchführen, um sicherzustellen, dass die Modelle ihren gewünschten Leistungsstandards entsprechen.

Erstellen Sie Ihren eigenen KI-Roboter: Entdecken Sie, wie das LeRobot-Tutorial von Hugging Face die Robotik revolutioniert!

Salesforce präsentiert das Open-Source-Modell ‘xGen-MM’ für multimodale KI zur Verbesserung des visuellen Sprachverständnisses.

Most people like

Mera Monitor

10.7K

Steigern Sie die Effizienz Ihres Teams mit einem leistungsstarken Workforce-Analytics-Tool, das zur Verfolgung von Produktivität und Leistung entwickelt wurde.

Mitarbeiterüberwachung AI Analytics Assistant

Ghost Craft

9.4K

Präsentation eines KI-gestützten Tools, das SEO-optimierte Inhalte speziell für Ihre Marke erstellt. Steigern Sie Ihre Online-Präsenz und binden Sie Ihr Publikum mit maßgeschneiderten Botschaften, die ankommen und in Suchergebnissen besser ranken.

KI-gesteuert Writing Assistants

SalesMind Ai

30K

Zusammenfassung: SalesMind AI ist ein innovatives Tool, das entwickelt wurde, um die LinkedIn-Prospektion zu optimieren und die Verkaufsleistung sowie die Ergebnisse zu verbessern. Dank seiner fortschrittlichen KI-Funktionen vereinfacht SalesMind AI den Prozess der Identifizierung und Ansprache potenzieller Kunden und steigert so letztendlich die Verkaufsergebnisse.

Akquise AI Lead Generation

QuoteTube

Transkribiere, fasse zusammen und teile bedeutende Zitate aus YouTube-Videos. Steigere dein Content-Engagement, indem du zentrale Highlights und einprägsame Zitate aus der Vielzahl der YouTube-Videos festhältst. Egal, ob du komplexe Ideen in prägnante Zusammenfassungen destillieren oder einfach nur wirkungsvolle Aussagen teilen möchtest, dieser Leitfaden hilft dir, effektiv zu transkribieren, knapp zusammenzufassen und diese wertvollen Einsichten mit deinem Publikum zu teilen.

Transkription Other

Find AI tools in YBX