DeepMind-Forscher entdecken bemerkenswerte Lernfähigkeiten in Langzeit-Kontext-LLMs.

In den letzten Jahren haben sich große Sprachmodelle (LLMs) von der Verarbeitung von einigen Hundert Wörtern zu der gleichzeitigen Verwaltung von Inhalten entwickelt, die mehreren Büchern entsprechen. Diese erweiterte Eingabekapazität, bekannt als „Kontextfenster“, eröffnet neue Anwendungen und Anwendungsfälle, die zuvor erheblichen Ingenieureinsatz erforderten.

Eine aktuelle Studie von Forschern bei Google DeepMind untersucht die Fähigkeiten des „Many-Shot“ In-Context Learning (ICL) von LLMs mit erweiterten Kontextfenstern. Die Ergebnisse zeigen, dass die Einbeziehung von Hunderten oder sogar Tausenden von Trainingsbeispielen in einem einzigen Prompt die Leistung des Modells erheblich steigern kann – zuvor wären solche Verbesserungen ein Feintuning erforderlich gewesen.

Few-Shot vs. Many-Shot ICL

ICL ermöglicht es LLMs, neue Aufgaben mithilfe von Beispielen zu erlernen, die während der Inferenz präsentiert werden. Dies bedeutet, dass das Modell einen Prompt erhält, der mehrere gelöste Beispiele zusammen mit dem zu bearbeitenden Problem enthält. Traditionell wurde diese Art des Lernens als „Few-Shot Learning“ bezeichnet.

Im Gegensatz zum Feintuning, das die Parameter des Modells anpasst, ist ICL benutzerfreundlich und zugänglicher; jedoch war es durch das Kontextfenster des Modells begrenzt. So unterstützte GPT-3 ein Kontextfenster von etwa 2.000 Tokens, was die Anzahl der Beispiele, die in einen Prompt passten, einschränkte. Aktuelle Modelle können jedoch über 100.000 Tokens verarbeiten, und Modelle wie Gemini 1.5 Pro können mehr als eine Million Tokens verarbeiten, was Hunderte oder Tausende von Beispielen in jedem Prompt ermöglicht.

In ihrer Studie untersuchten die DeepMind-Forscher die Auswirkungen von Many-Shot ICL auf die Leistung von LLMs in verschiedenen Aufgaben, einschließlich mathematischer Problemlösung, Fragenbeantwortung, Modellierung von Ergebnisbelohnungen, Übersetzung von ressourcenarmen Sprachen, Planung und Sentimentanalyse. Einige Prompts enthielten bis zu 8.192 ICL-Beispiele, und die Ergebnisse zeigten, dass die Leistung mit der Hinzufügung weiterer Beispiele verbessert wurde. Bei Übersetzungsaufgaben erzielte das long-shot ICL auf Gemini Pro Rekordwerte in Kurdisch und Tamil. Bei Zusammenfassungsaufgaben erreichte die Many-Shot ICL-Leistung die der spezialisierten feinabgestimmten Modelle und erreichte ihre optimale Effektivität erst, als die In-Context-Beispiele auf Hunderte von Tausenden von Tokens erweitert wurden.

Verstärktes und Ungemanagtes ICL

Eine der größten Herausforderungen des Many-Shot ICL ist der Bedarf an großen Mengen qualitativ hochwertiger von Menschen generierter Beispiele, insbesondere in Denkaufgaben. Die Forscher schlagen zwei Strategien vor, um die Abhängigkeit von menschlich erzeugten Daten zu verringern.

Die erste Technik, das „verstärkte ICL“, ersetzt menschlich gestaltete Beispiele durch vom Modell generierte Begründungen. Das LLM erstellt mehrere Begründungen für ein bestimmtes Problem mithilfe eines Few-Shot- oder Zero-Shot-Ketten-Denkanstoßes. Nachdem diese Antworten durch Mechanismen validiert wurden, die die richtigen Antworten bestätigen, bilden sie ein ICL-Dataset, das aus Problem-/Begründungspaaren besteht.

Die zweite Methode, das „ungemanagte ICL“, nutzt das angeborene Wissen des Modells über das Problem. Dieser Ansatz umfasst einen Prompt, der eine Liste ungelöster Probleme zusammen mit einem Zero-Shot- oder Few-Shot-Prompt für ein Zielproblem enthält, wodurch der Bedarf an menschlich gestalteten Antworten entfällt. Die Forscher hegen die Hypothese, dass, wenn das LLM über das notwendige Wissen zur Lösung einer Aufgabe verfügt, die Bereitstellung des relevanten Kontexts ihm hilft, sich auf die internen Konzepte zu konzentrieren, die für die Problemlösung erforderlich sind.

Die Forscher bestätigen, dass sowohl modellgenerierte Begründungen als auch nur problembezogene Prompts die Abhängigkeit von menschlich erzeugten Beispielen verringern können.

Anpassung des Modellverhaltens

Die Studie zeigte auch, dass Many-Shot ICL Vorurteile aus dem Vortraining überwinden und effektiv nicht-natursprachliche Vorhersageaufgaben erlernen kann, bei denen Few-Shot ICL Schwierigkeiten haben könnte. So änderten die Forscher beispielsweise die Labels eines Datensatzes zur Sentimentanalyse, um die Sentiment-Vorurteile, die das LLM während des Trainings erworben hatte, zu widersprechen, und deren Experimente zeigten, dass die Leistung dramatisch anstieg, je mehr ICL-Beispiele hinzugefügt wurden, und damit nahezu den Standardlabels entsprach.

Darüber hinaus wurde Many-Shot ICL erfolgreich eingesetzt, um das Modell für die lineare Klassifikation und sequentielle Parität umzukonfigurieren – Aufgaben, die typischerweise ohne gezieltes Training herausfordernd sind. Dies unterstreicht das Potenzial des Many-Shot-Lernens, sich an neue Aufgaben und Bereiche anzupassen, die möglicherweise nicht mit den Trainingsdaten eines LLM übereinstimmen.

Implikationen für Unternehmen

Während KI-Studios daran arbeiten, die Kontextfenster der LLMs zu erweitern, argumentieren einige Experten, dass Feintuning und andere Techniken wie die Retrieval-augmented Generation (RAG) möglicherweise nicht mehr notwendig sind. Unternehmen könnten einfach Prompts mit relevanten Informationen, Beispielen und Aufgabenanweisungen erstellen.

Allerdings ist Many-Shot ICL derzeit nicht skalierbar. Für LLM-Anwendungen, die täglich Zehntausende von Millionen Anfragen erhalten, könnte die Erweiterung jedes Prompts um einige Hundert Beispiele erhebliche Auswirkungen auf Geschwindigkeit und Inferenzkosten haben.

Daher kann Many-Shot ICL ein wertvolles Werkzeug in der Explorations- und Prototyping-Phase von LLM-Anwendungen sein, das Entwicklern erlaubt, verschiedene Techniken zur Prompt-Gestaltung zu testen, ohne durch das Kontextfenster eingeschränkt zu sein. Dennoch wird die effiziente Skalierung der Produkte davon abhängen, den Tokenverbrauch zu minimieren und kleinere, schnellere und kostengünstigere Modelle zu nutzen.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles