Große Sprachmodelle (LLMs) revolutionieren die Schulung von Robotersystemen erheblich, wie aktuelle Forschungen von Nvidia, der University of Pennsylvania und der University of Texas at Austin zeigen. Die Studie präsentiert DrEureka, eine bahnbrechende Technik, die die Erstellung von Belohnungsfunktionen und Randomisierungsverteilungen für Robotersysteme automatisiert. DrEureka, was für Domain Randomization Eureka steht, benötigt lediglich eine hochrangige Aufgabenbeschreibung und übertrifft traditionelle, von Menschen entworfene Belohnungen beim Transfer erlernter Politiken von der Simulation in reale Anwendungen.
Sim-to-Real-Transfer
In der Robotik werden Politiken normalerweise in simulierten Umgebungen trainiert, bevor sie in der realen Welt eingesetzt werden. Die Herausforderung des Transfers dieser erlernten Politiken, oft als "Sim-to-Real-Gap" bezeichnet, erfordert umfangreiche Feinabstimmungen zwischen Simulation und tatsächlichen Bedingungen. Neueste Fortschritte zeigen, dass LLMs ihr umfangreiches Wissen und ihre Überlegungsfähigkeiten in Verbindung mit den Physik-Engines virtueller Simulatoren nutzen können, um komplexe motorische Fähigkeiten zu erlernen. LLMs können Belohnungsfunktionen generieren – zentrale Komponenten, die Systeme des verstärkenden Lernens (RL) anleiten, um die optimalen Aktionssequenzen zur Aufgabenerfüllung zu identifizieren. Der Transfer einer erlernten Politik in reale Anwendungen erfordert jedoch oft arbeitsintensive Anpassungen der Belohnungsfunktionen und Simulationsparameter.
Die Lösung von DrEureka
DrEureka zielt darauf ab, den Sim-to-Real-Transferprozess zu optimieren, indem die Gestaltung von Belohnungsfunktionen und Parametern der Domainrandomisierung (DR) automatisiert wird. Aufbauend auf der im Oktober 2023 eingeführten Eureka-Technik nutzt DrEureka LLMs zur Generierung von Softwareimplementierungen von Belohnungsfunktionen basierend auf Aufgabenbeschreibungen. Diese Belohnungsfunktionen werden in Simulationen getestet, und die Ergebnisse fließen in Anpassungen ein, was eine gleichzeitige Optimierung mehrerer Belohnungsfunktionen ermöglicht. Während Eureka das Training von RL-Politiken in simulierten Umgebungen erleichtert, greift es nicht die Komplexitäten realer Szenarien auf und erfordert manuelle Eingriffe für Sim-to-Real-Übergänge. DrEureka verbessert diesen Prozess, indem es die DR-Parameter automatisch konfiguriert. DR-Techniken führen Variabilität in der Simulation ein, wodurch sich RL-Politiken an die Unvorhersehbarkeiten der realen Welt anpassen können. Die Auswahl geeigneter Parameter erfordert gesundes physikalisches Urteilsvermögen, was es zu einer idealen Herausforderung für LLMs macht.
Die Implementierung von DrEureka
DrEureka verfolgt einen mehrstufigen Ansatz zur gleichzeitigen Optimierung von Belohnungsfunktionen und Domainrandomisierung. Zunächst generiert ein LLM Belohnungsfunktionen basierend auf Sicherheitsanweisungen und Aufgabenbeschreibungen. Das Modell nutzt diese Anweisungen zur Entwicklung einer ersten Belohnungsfunktion und erlernt eine Politik ähnlich der der ursprünglichen Eureka-Methode. Anschließend führt es Tests durch, um die optimalen physikalischen Parameter wie Reibung und Schwerkraft zu bestimmen, die die Auswahl der Konfigurationen für die Domainrandomisierung leiten. Die Politik wird daraufhin mit diesen Konfigurationen erneut trainiert, wodurch ihre Robustheit gegenüber realen Störungen verbessert wird. Die Forscher beschreiben DrEureka als "eine von Sprachmodellen gesteuerte Pipeline für den Sim-to-Real-Transfer mit minimalem menschlichen Eingriff".
Leistungsergebnisse
Das Team evaluierte DrEureka an vierbeinigen und geschickten Robotik-Plattformen. Die Ergebnisse zeigten, dass die mit DrEureka trainierten vierbeinigen Lokomotionspolitiken traditionelle, von Menschen entworfene Systeme in der Vorwärtsgeschwindigkeit um 34 % und in der zurückgelegten Distanz über verschiedene Terrainarten um 20 % übertrafen. In Tests zur geschickten Manipulation erreichte die beste von DrEureka entwickelte Politik 300 % mehr Würfelbewegungen in einem festgelegten Zeitraum im Vergleich zu von Menschen entworfenen Politiken.
Eine bemerkenswerte Anwendung von DrEureka betraf einen Robo-Hund, der auf einem Gymnastikball balancierte und lief. Das LLM generierte erfolgreich Belohnungsfunktionen und DR-Konfigurationen, die eine nahtlose Performance in der realen Welt ermöglichten, ohne zusätzliche Anpassungen und mit effektiven Leistungen auf verschiedenen Innen- und Außenflächen bei minimaler Sicherheitsunterstützung. Die Studie zeigte zudem, dass die Einbeziehung von Sicherheitsanweisungen in Aufgabenbeschreibungen einen signifikanten Einfluss auf die logische Kohärenz der vom LLM generierten Anweisungen für den Transfer in die reale Welt hat.
"Wir glauben, dass DrEureka das Potenzial hat, die Forschung zum Lernen von Robotern zu beschleunigen, indem es die komplexen Designelemente der Erwerbung grundlegender Fertigkeiten automatisiert", schlossen die Forscher.