Embodied AI-Agenten, die mit der physischen Welt interagieren können, besitzen ein enormes Potenzial für verschiedene Anwendungen. Allerdings bleibt ein zentrales Hindernis bestehen: der Mangel an Trainingsdaten.
Um diese Herausforderung anzugehen, haben Forscher des Imperial College London und von Google DeepMind das Rahmenwerk der Diffusion Augmented Agents (DAAG) entwickelt. Dieser innovative Ansatz nutzt die Fähigkeiten großer Sprachmodelle (LLMs), visuelle Sprachmodelle (VLMs) und Diffusionsmodelle, um die Effizienz des Lernens und die Transferlernfähigkeit von verkörperten Agenten zu steigern.
Warum ist Daten-Effizienz für verkörperte Agenten wichtig?
Neueste Fortschritte in LLMs und VLMs haben Optimismus bezüglich ihrer Verwendung in der Robotik und verkörperter KI geweckt. Während diese Modelle auf umfangreichen Text- und Bilddatensätzen aus dem Internet trainiert werden können, müssen verkörperte KI-Systeme aus physischen Interaktionen lernen.
Die reale Welt stellt einzigartige Herausforderungen für die Datensammlung in der verkörperten KI dar. Physikalische Umgebungen sind erheblich komplexer und unvorhersehbarer als digitale Bereiche. Zudem sind Roboter und andere verkörperte KI-Systeme auf physische Sensoren und Aktuatoren angewiesen, die langsam, fehleranfällig und anfällig für Störungen sein können.
Forscher sind der Ansicht, dass die Überwindung dieser Herausforderungen darin liegt, den Einsatz der vorhandenen Daten und Erfahrungen eines Agenten zu optimieren. Sie postulieren: „Wir nehmen an, dass verkörperte Agenten durch die Nutzung vergangener Erfahrungen eine höhere Daten-Effizienz erreichen können, um effektiv zu erkunden und Wissen zwischen Aufgaben zu übertragen.“
Was ist DAAG?
Das Rahmenwerk der Diffusion Augmented Agents (DAAG) wurde entwickelt, um Agenten das effektivere Lernen von Aufgaben zu ermöglichen, indem sie frühere Erfahrungen nutzen und synthetische Daten generieren. Die Forscher zielen darauf ab, Agenten zu helfen, autonom Teilziele zu setzen und zu bewerten – und das sogar ohne externe Belohnungen – während sie ihre vorherigen Erfahrungen umwidmen, um das Lernen in neuen Aufgaben zu beschleunigen.
DAAG funktioniert innerhalb eines Markov-Entscheidungsprozesses (MDP). Zu Beginn jeder Episode erhält der Agent Aufgabenhinweise, beobachtet seine Umgebung und unternimmt Maßnahmen, um einen Zustand zu erreichen, der mit diesen Hinweisen übereinstimmt. Es gibt zwei Gedächtnispuffer: einen aufgabenspezifischen Puffer für aktuelle Erfahrungen und einen „offline lebenslangen Puffer“ für alle vergangenen Erfahrungen, unabhängig von ihren Aufgaben oder Ergebnissen.
DAAG kombiniert die Stärken von LLMs, VLMs und Diffusionsmodellen, um Agenten zu entwickeln, die in der Lage sind, rationale Entscheidungen zu treffen, die Umwelt zu analysieren und effizient neue Ziele zu erlernen, indem sie frühere Erfahrungen umwidmen. Das LLM fungiert als zentrale Steuerungseinheit, die neue Aufgabenhinweise interpretiert, sie in kleinere Teilziele unterteilt und mit dem VLM und dem Diffusionsmodell koordiniert, um die Ziele zu erreichen.
Um den Nutzen früherer Erfahrungen zu maximieren, verwendet DAAG eine Methode namens Hindsight Experience Augmentation (HEA). Das VLM verarbeitet visuelle Beobachtungen im Erfahrungspuffer und vergleicht diese mit gewünschten Teilzielen, wodurch das Gedächtnis des Agenten mit relevanten Beobachtungen angereichert wird. Falls relevante Erfahrungen fehlen, generiert das Diffusionsmodell synthetische Daten, um dem Agenten eine Visualisierung potenzieller Ergebnisse zu ermöglichen, wodurch Erkundungen ohne direkte physische Interaktion stattfinden können.
„Durch HEA können wir synthetisch die Anzahl erfolgreicher Episoden im Gedächtnis des Agenten erhöhen, was eine effiziente Wiederverwendung von Daten ermöglicht und die Effizienz erheblich steigert – insbesondere beim Lernen mehrerer Aufgaben hintereinander“, erklären die Forscher. Sie beschreiben DAAG und HEA als autonome Pipeline, die unabhängig von menschlicher Aufsicht funktioniert und geometrische sowie zeitliche Konsistenz nutzt, um zuverlässige augmentierte Beobachtungen zu generieren.
Was sind die Vorteile von DAAG?
In ihren Bewertungen über mehrere Benchmarks und simulierte Umgebungen stellten die Forscher fest, dass DAAG traditionelle Reinforcement-Learning-Systeme in Aufgaben wie Navigation und Objektmanipulation erheblich übertraf. Besonders bemerkenswert ist, dass Agenten, die mit DAAG ausgestattet sind, Ziele erreichten, selbst ohne explizite Belohnungen, schneller zu Ergebnissen kamen und weniger Interaktion mit der Umgebung benötigten als nicht-DAAG-Agenten.
Das Rahmenwerk ist besonders stark in der Wiederverwendung von Daten aus vorhergehenden Aufgaben, was das schnelle Erlernen neuer Ziele erleichtert. Die Fähigkeit, Wissen zwischen Aufgaben zu übertragen, ist entscheidend für die Schaffung von Agenten, die kontinuierlich lernen und sich anpassen können. Die Wirksamkeit von DAAG bei der Optimierung des Transferlernens ebnet den Weg für robusteres und flexibleres Robotersysteme und verkörperte KI.
„Diese Arbeit eröffnet vielversprechende Perspektiven zur Bekämpfung des Datenmangels im robotergestützten Lernen und zur Entwicklung umfassenderer Agenten“, schließen die Forscher.