Wissenschaftler der University of California, Berkeley, haben eine bahnbrechende Technik im Bereich des maschinellen Lernens namens „Reinforcement Learning via Intervention Feedback“ (RLIF) vorgestellt. Dieser innovative Ansatz vereinfacht das Training von KI-Systemen in komplexen Umgebungen.
RLIF kombiniert Verstärkungslernen mit interaktivem Imitationslernen, zwei entscheidenden Methoden zur Schulung künstlicher Intelligenz. Besonders vorteilhaft ist es in Szenarien, in denen Belohnungssignale rar sind und menschliches Feedback ungenau ist – eine häufige Herausforderung im Robotiktraining.
Erklärung der Techniken: Verstärkungslernen und Imitationslernen
Verstärkungslernen eignet sich hervorragend für Umgebungen mit klaren Belohnungsfunktionen, wodurch es effektiv für optimale Steuerung, Gaming und die Anpassung großer Sprachmodelle (LLMs) an menschliche Präferenzen ist. In der Robotik hingegen stößt es an seine Grenzen, da komplexe Ziele oft keine eindeutigen Belohnungssignale bieten.
In solchen Fällen wenden Ingenieure Imitationslernen an, eine Unterkategorie des überwachten Lernens, die auf Belohnungssignale verzichtet. Stattdessen werden Modelle basierend auf menschlichen Demonstrationen trainiert. Beispielsweise könnte ein Mensch einen Roboterarm anleiten, um ein Objekt zu manipulieren, und so ein visuelles Beispiel zur Nachahmung für die KI bereitstellen. Der Agent betrachtet diese Demonstrationen als Trainingsdaten.
Trotz seiner Vorteile steht das Imitationslernen vor Herausforderungen, insbesondere dem „Verteilungsungleichheitsproblem“. Dieses tritt auf, wenn Agenten auf Szenarien treffen, die außerhalb ihrer Trainingsbeispiele liegen, was zu Leistungseinbußen führt. Interaktives Imitationslernen begegnet diesem Problem, indem es Experten ermöglicht, in Echtzeit Feedback zu geben und den Agenten während seiner Aktionen zu korrigieren, wenn er vom gewünschten Pfad abweicht. Allerdings basiert diese Methode häufig auf nahezu optimalen Eingriffen, was insbesondere in der Robotik schwierig sein kann, da die Präzision von Menschen variiert.
Verschmelzung der Ansätze: Verstärkungslernen und Imitationslernen
Die Forscher von der U.C. Berkeley schlagen ein hybrides Modell vor, das die Stärken von Verstärkungslernen und interaktivem Imitationslernen nutzt. RLIF basiert auf der Erkenntnis, dass das Erkennen von Fehlern in der Regel einfacher ist als das Ausführen perfekter Korrekturen.
In komplexen Aufgaben wie dem autonomen Fahren signalisiert beispielsweise ein Eingriff (wie das plötzliche Bremsen) eine Abweichung, bietet jedoch kein optimales Antwortmodell. Der RL-Agent sollte sich nicht darauf konzentrieren, die Aktion nachzuahmen, sondern die Umstände zu vermeiden, die den Eingriff ausgelöst haben.
„Die Entscheidung, während eines interaktiven Imitationsprozesses einzugreifen, kann ein Belohnungssignal für das Verstärkungslernen liefern“, so die Forscher. Dies ermöglicht es den RL-Methoden, unter ähnlichen, aber flexibleren Annahmen wie beim interaktiven Imitationslernen zu arbeiten und menschliche Eingriffe zu nutzen, ohne anzunehmen, dass sie optimal sind.
RLIF trainiert Agenten mithilfe einer Kombination aus Demonstrationen und interaktiven Eingriffen, betrachtet diese Eingriffe jedoch als Indikatoren potenzieller Fehler statt als definitive Hinweise für optimales Handeln.
„Wir erwarten, dass Experten eher eingreifen, wenn die trainierte Strategie suboptimale Entscheidungen trifft“, bemerkten die Forscher und betonten, dass die Eingriffe wertvolle Signale zur Modifikation des KI-Verhaltens darstellen.
Indem RLIF die Einschränkungen sowohl des traditionellen Verstärkungslernens als auch des interaktiven Imitationslernens adressiert – wie beispielsweise die Notwendigkeit einer exakten Belohnungsfunktion und optimaler Eingriffe – erweist es sich als praktischer für komplexe Umgebungen.
„Experten finden es möglicherweise einfacher, unerwünschte Zustände zu identifizieren, als in diesen Situationen durchgängig optimal zu handeln“, fügten die Forscher hinzu.
Test von RLIF
Das Team der U.C. Berkeley verglich RLIF mit DAgger, einem führenden Algorithmus für interaktives Imitationslernen. In simulierten Umgebungen übertraf RLIF die besten DAgger-Varianten im Durchschnitt um das Zwei- bis Dreifache; dieser Unterschied erhöhte sich auf das Fünffache, wenn die Experteneingriffe suboptimal waren.
Echtzeittests mit robotischen Herausforderungen, wie der Manipulation von Objekten und dem Falten von Stoffen, bestätigten weiter die Robustheit und Anwendbarkeit von RLIF in praktischen Situationen.
Obwohl RLIF einige Herausforderungen mit sich bringt – wie hohe Datenanforderungen und Komplexitäten bei der Echtzeiteinführung – bietet es erhebliches Potenzial für das Training fortschrittlicher Robotersysteme in verschiedenen Anwendungen und stellt damit ein transformatives Werkzeug im Bereich der KI dar.