Les agents d'IA incarnée capables d'interagir avec le monde physique présentent un potentiel considérable pour diverses applications. Cependant, un obstacle majeur subsiste : la rareté des données d'entraînement.
Pour surmonter ce défi, des chercheurs de l'Imperial College London et de Google DeepMind ont introduit le cadre Diffusion Augmented Agents (DAAG). Cette approche innovante exploite les capacités des grands modèles de langage (LLMs), des modèles de langue visuelle (VLMs) et des modèles de diffusion pour augmenter l'efficacité d'apprentissage et les capacités de transfert des agents incarnés.
Pourquoi l'Efficacité des Données est-elle Essentielle pour les Agents Incarnés ?
Les avancées récentes dans les LLMs et les VLMs ont suscité un optimisme pour leur utilisation en robotique et en IA incarnée. Bien que ces modèles puissent être formés sur d'importants ensembles de données textuelles et d'images collectées sur Internet, les systèmes d'IA incarnée doivent apprendre à partir d'interactions physiques.
Le monde réel présente des défis uniques pour la collecte de données en IA incarnée. Les environnements physiques sont beaucoup plus complexes et imprévisibles que les domaines numériques. De plus, les robots et autres systèmes d'IA incarnée dépendent de capteurs et d'actionneurs physiques, souvent lents, bruyants et susceptibles de défaillance. Les chercheurs affirment que surmonter ces défis dépend de l'optimisation de l'utilisation des données et expériences existantes d'un agent. Ils déclarent : « Nous avons l'hypothèse que les agents incarnés peuvent atteindre une plus grande efficacité des données en s'appuyant sur leurs expériences passées pour explorer efficacement et transférer des connaissances entre les tâches. »
Qu'est-ce que DAAG ?
Le cadre Diffusion Augmented Agent (DAAG) est conçu pour permettre aux agents d'apprendre des tâches plus efficacement en utilisant des expériences passées et en générant des données synthétiques. Les chercheurs visent à aider les agents à définir et évaluer de manière autonome des sous-objectifs, même sans récompenses externes, tout en réutilisant leurs expériences antérieures pour accélérer l'apprentissage de nouvelles tâches.
DAAG fonctionne dans un processus de décision de Markov (MDP). Au début de chaque épisode, l'agent reçoit des instructions de tâche, observe son environnement et prend des mesures pour atteindre un état conforme à ces instructions. Il dispose de deux mémoires : une mémoire spécifique à la tâche pour les expériences en cours et une « mémoire à vie hors ligne » pour toutes les expériences passées, quelle que soit leur tâche ou résultat.
DAAG conjugue les forces des LLMs, des VLMs et des modèles de diffusion pour créer des agents capables de raisonnement, d'analyse environnementale et d'apprentissage efficient de nouveaux objectifs en réutilisant des expériences antérieures. Le LLM agit en tant que contrôleur central, interprétant les nouvelles instructions de tâche, les décomposant en sous-objectifs et coordonnant avec le VLM et le modèle de diffusion pour atteindre les objectifs.
Pour maximiser l'utilité des expériences passées, DAAG utilise une méthode appelée Augmentation d'Expériences Rétrospectives (HEA). Le VLM traite les observations visuelles dans le buffer d'expérience et les compare aux sous-objectifs souhaités, enrichissant ainsi la mémoire de l'agent avec des observations pertinentes. En l'absence d'expériences pertinentes, le modèle de diffusion génère des données synthétiques pour aider l'agent à visualiser des résultats potentiels, permettant l'exploration sans interaction physique directe.
« Grâce à l'HEA, nous pouvons augmenter synthétiquement le nombre d'épisodes réussis stockés dans les mémoires de l'agent, permettant une réutilisation efficace des données et un renforcement significatif de l'efficacité, surtout lors de l'apprentissage de plusieurs tâches consécutives », expliquent les chercheurs. Ils décrivent DAAG et HEA comme un pipeline autonome fonctionnant indépendamment de la supervision humaine, s'appuyant sur la cohérence géométrique et temporelle pour générer des observations augmentées fiables.
Quels sont les Avantages de DAAG ?
Lors de leurs évaluations sur plusieurs benchmarks et environnements simulés, les chercheurs ont constaté que DAAG surpassait de manière significative les systèmes d'apprentissage par renforcement traditionnels dans des tâches comme la navigation et la manipulation d'objets. Notamment, les agents activés par DAAG atteignaient leurs objectifs même sans récompenses explicites, atteignant les résultats plus rapidement et nécessitant moins d'interactions avec l'environnement par rapport aux agents non-DAAG.
Le cadre excelle dans la réutilisation des données provenant de tâches antérieures, facilitant ainsi l'apprentissage rapide de nouveaux objectifs. La capacité de transférer des connaissances entre les tâches est essentielle pour créer des agents capables d'apprentissage continu et d'adaptation. L'efficacité de DAAG dans l'optimisation de l'apprentissage par transfert pave la voie à des robots et des systèmes d'IA incarnée plus résilients et flexibles.
« Ce travail suggère des pistes prometteuses pour résoudre la rareté des données dans l'apprentissage robotique et pour développer des agents plus largement capables », concluent les chercheurs.