Los agentes de IA encarnada que pueden interactuar con el mundo físico tienen un potencial enorme para diversas aplicaciones. Sin embargo, un obstáculo crucial persiste: la escasez de datos de entrenamiento.
Para enfrentar este desafío, investigadores del Imperial College London y Google DeepMind han presentado el marco de Agentes Aumentados por Difusión (DAAG). Este enfoque innovador aprovecha las capacidades de grandes modelos de lenguaje (LLMs), modelos de lenguaje visual (VLMs) y modelos de difusión para aumentar la eficiencia de aprendizaje y las habilidades de transferencia de aprendizaje de los agentes encarnados.
¿Por qué es importante la eficiencia de los datos para los agentes encarnados?
Los recientes avances en LLMs y VLMs han generado optimismo sobre su uso en robótica e IA encarnada. Aunque estos modelos pueden entrenarse con amplios conjuntos de datos de texto e imágenes obtenidos de Internet, los sistemas de IA encarnada deben aprender a partir de interacciones físicas.
El mundo real presenta desafíos únicos para la recolección de datos en la IA encarnada. Los entornos físicos son considerablemente más complejos e impredecibles que los digitales. Además, los robots y otros agentes de IA encarnada dependen de sensores y actuadores físicos, que pueden ser lentos, ruidosos y propensos a fallos.
Los investigadores afirman que superar estos desafíos radica en optimizar el uso de los datos y experiencias existentes del agente. Ellos sostienen: "Hipotetizamos que los agentes encarnados pueden lograr una mayor eficiencia de datos aprovechando experiencias pasadas para explorar de manera efectiva y transferir conocimiento entre tareas".
¿Qué es DAAG?
El marco de Agente Aumentado por Difusión (DAAG) está diseñado para permitir que los agentes aprendan tareas de manera más efectiva utilizando experiencias pasadas y generando datos sintéticos. Los investigadores buscan ayudar a los agentes a establecer y evaluar subobjetivos de forma autónoma, incluso sin recompensas externas, reutilizando sus experiencias previas para acelerar el aprendizaje en nuevas tareas.
DAAG opera dentro de un Proceso de Decisión de Markov (MDP). Al inicio de cada episodio, el agente recibe instrucciones sobre la tarea, observa su entorno y toma acciones para alcanzar un estado que se alinee con dichas instrucciones. Cuenta con dos buffers de memoria: un buffer específico de tarea para experiencias actuales y un "buffer offline de por vida" para todas las experiencias pasadas, sin importar sus tareas o resultados.
DAAG sinergiza las fortalezas de los LLMs, VLMs y modelos de difusión para crear agentes que pueden razonar, analizar el entorno y aprender de manera eficiente nuevos objetivos al reutilizar experiencias anteriores. El LLM actúa como controlador central, interpretando las nuevas instrucciones de tarea, descomponiéndolas en subobjetivos más pequeños y coordinándose con el VLM y el modelo de difusión para lograr los objetivos.
Para maximizar la utilidad de las experiencias pasadas, DAAG utiliza un método llamado Aumento de Experiencia por Hindsight (HEA). El VLM procesa observaciones visuales en el buffer de experiencia y las compara con subobjetivos deseados, mejorando la memoria del agente con observaciones relevantes. Si no hay experiencias relevantes, el modelo de difusión genera datos sintéticos para ayudar al agente a visualizar posibles resultados, permitiendo la exploración sin interacción física directa.
"Mediante HEA, podemos aumentar sintéticamente el número de episodios exitosos almacenados en los buffers del agente, permitiendo una reutilización efectiva de datos y mejorando significativamente la eficiencia, especialmente al aprender múltiples tareas de forma sucesiva", explican los investigadores.
Describen DAAG y HEA como un pipeline autónomo que funciona independientemente de la supervisión humana, aprovechando la consistencia geométrica y temporal para generar observaciones aumentadas confiables.
¿Cuáles son los beneficios de DAAG?
En sus evaluaciones en múltiples benchmarks y entornos simulados, los investigadores descubrieron que DAAG superó significativamente a los sistemas tradicionales de aprendizaje por refuerzo en tareas como navegación y manipulación de objetos. Notablemente, los agentes habilitados por DAAG alcanzaron sus objetivos incluso sin recompensas explícitas, lograron metas más rápido y requirieron menos interacción con el entorno en comparación con los agentes que no usaron DAAG.
El marco destaca por reutilizar datos de tareas previas, facilitando así el aprendizaje rápido de nuevos objetivos. La capacidad para transferir conocimiento entre tareas es vital para crear agentes capaces de aprender y adaptarse continuamente. La eficacia de DAAG en la optimización del aprendizaje por transferencia abre el camino a robots y sistemas de IA encarnada más resilientes y flexibles.
"Este trabajo sugiere vías prometedoras para abordar la escasez de datos en el aprendizaje robótico y para desarrollar agentes más capaces en un sentido amplio", concluyen los investigadores.