El DrEureka de Nvidia supera el rendimiento humano en el entrenamiento de sistemas robóticos.

Los grandes modelos de lenguaje (LLMs) están transformando el entrenamiento de sistemas robóticos de manera significativa, como lo resalta una investigación reciente de Nvidia, la Universidad de Pensilvania y la Universidad de Texas en Austin. Este estudio presenta a DrEureka, una técnica innovadora que automatiza la creación de funciones de recompensa y distribuciones de aleatorización para sistemas robóticos. DrEureka, que significa Domain Randomization Eureka, solo requiere una descripción de tarea a alto nivel y supera las recompensas diseñadas por humanos en la transferencia de políticas aprendidas de simulaciones a aplicaciones en el mundo real.

Transferencia Simulador a Realidad

En robótica, las políticas generalmente se entrenan en entornos simulados antes de ser implementadas en el mundo real. La dificultad de transferir estas políticas aprendidas, conocida como el "gap simulador-real", requiere ajustes extensivos entre la simulación y las condiciones reales. Avances recientes han demostrado que los LLMs pueden aprovechar su amplio conocimiento y habilidades de razonamiento junto con los motores de física de los simuladores virtuales para aprender habilidades motoras complejas. Los LLMs pueden generar funciones de recompensa—componentes clave que guían los sistemas de aprendizaje por refuerzo (RL)—para identificar las secuencias óptimas de acciones necesarias para completar tareas. Sin embargo, la transferencia de una política aprendida a aplicaciones del mundo real a menudo implica ajustes laboriosos de funciones de recompensa y parámetros de simulación.

La Solución de DrEureka

DrEureka busca optimizar el proceso de transferencia simulador-real al automatizar el diseño de funciones de recompensa y parámetros de aleatorización de dominio (DR). Basándose en la técnica Eureka introducida en octubre de 2023, DrEureka utiliza LLMs para generar implementaciones de software de funciones de recompensa a partir de descripciones de tareas. Estas funciones se prueban en simulaciones, y los resultados informan modificaciones, permitiendo una optimización simultánea de múltiples funciones de recompensa. Mientras que Eureka facilita el entrenamiento de políticas de RL en entornos simulados, no aborda las complejidades de los escenarios del mundo real y requiere intervención manual durante las transiciones de simulador a realidad. DrEureka mejora este proceso al configurar automáticamente los parámetros de DR. Las técnicas de DR introducen variabilidad en la simulación, permitiendo que las políticas de RL se adapten a la imprevisibilidad del mundo real. La selección de los parámetros apropiados requiere razonamiento físico de sentido común, lo que lo convierte en un desafío ideal para los LLMs.

Implementación de DrEureka

DrEureka emplea un enfoque de múltiples pasos para optimizar funciones de recompensa y aleatorización de dominio simultáneamente. En primer lugar, un LLM genera funciones de recompensa basadas en instrucciones de seguridad y descripciones de tareas. Luego, el modelo utiliza estas instrucciones para desarrollar una función de recompensa inicial, aprendiendo una política similar a la del método original Eureka. A continuación, realiza pruebas para determinar los parámetros físicos óptimos, como fricción y gravedad, que guían la selección de configuraciones de aleatorización de dominio. Posteriormente, la política se reentrena con estas configuraciones, mejorando su robustez frente al ruido del mundo real.

Los investigadores describen a DrEureka como un "pipeline impulsado por modelos de lenguaje para la transferencia simulador-real con mínima intervención humana".

Resultados de Rendimiento

El equipo evaluó DrEureka en plataformas robóticas cuadrúpedas y de manipulación hábil. Los resultados demostraron que las políticas de locomoción cuadrúpede entrenadas con DrEureka superaron a los sistemas tradicionales diseñados por humanos en un 34% en velocidad de avance y un 20% en distancia recorrida sobre diversos terrenos. En pruebas de manipulación hábil, la mejor política desarrollada por DrEureka logró un 300% más de rotaciones de cubos en un tiempo fijo que las políticas creadas por humanos.

Una aplicación notable de DrEureka involucró a un perro robótico equilibrándose y caminando sobre una pelota de yoga. El LLM logró crear funciones de recompensa y configuraciones de DR que permitieron un rendimiento fluido en el mundo real, sin necesidad de ajustes adicionales y funcionando eficazmente en diversas superficies interiores y exteriores con soporte de seguridad mínimo.

El estudio también reveló que incluir instrucciones de seguridad en las descripciones de tareas influye significativamente en la coherencia lógica de las instrucciones generadas por el LLM para la transferencia al mundo real. "Creemos que DrEureka demuestra el potencial de acelerar la investigación en el aprendizaje robótico al automatizar los complejos elementos de diseño de la adquisición de habilidades de bajo nivel", concluyeron los investigadores.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles