El DrEureka de Nvidia supera el rendimiento humano en el entrenamiento de sistemas robóticos.

Home Noticias de IA El DrEureka de Nvidia supera el rendimiento humano en el entrenamiento de sistemas robóticos.

Los grandes modelos de lenguaje (LLMs) están transformando el entrenamiento de sistemas robóticos de manera significativa, como lo resalta una investigación reciente de Nvidia, la Universidad de Pensilvania y la Universidad de Texas en Austin. Este estudio presenta a DrEureka, una técnica innovadora que automatiza la creación de funciones de recompensa y distribuciones de aleatorización para sistemas robóticos. DrEureka, que significa Domain Randomization Eureka, solo requiere una descripción de tarea a alto nivel y supera las recompensas diseñadas por humanos en la transferencia de políticas aprendidas de simulaciones a aplicaciones en el mundo real.

Transferencia Simulador a Realidad

En robótica, las políticas generalmente se entrenan en entornos simulados antes de ser implementadas en el mundo real. La dificultad de transferir estas políticas aprendidas, conocida como el "gap simulador-real", requiere ajustes extensivos entre la simulación y las condiciones reales. Avances recientes han demostrado que los LLMs pueden aprovechar su amplio conocimiento y habilidades de razonamiento junto con los motores de física de los simuladores virtuales para aprender habilidades motoras complejas. Los LLMs pueden generar funciones de recompensa—componentes clave que guían los sistemas de aprendizaje por refuerzo (RL)—para identificar las secuencias óptimas de acciones necesarias para completar tareas. Sin embargo, la transferencia de una política aprendida a aplicaciones del mundo real a menudo implica ajustes laboriosos de funciones de recompensa y parámetros de simulación.

La Solución de DrEureka

DrEureka busca optimizar el proceso de transferencia simulador-real al automatizar el diseño de funciones de recompensa y parámetros de aleatorización de dominio (DR). Basándose en la técnica Eureka introducida en octubre de 2023, DrEureka utiliza LLMs para generar implementaciones de software de funciones de recompensa a partir de descripciones de tareas. Estas funciones se prueban en simulaciones, y los resultados informan modificaciones, permitiendo una optimización simultánea de múltiples funciones de recompensa. Mientras que Eureka facilita el entrenamiento de políticas de RL en entornos simulados, no aborda las complejidades de los escenarios del mundo real y requiere intervención manual durante las transiciones de simulador a realidad. DrEureka mejora este proceso al configurar automáticamente los parámetros de DR. Las técnicas de DR introducen variabilidad en la simulación, permitiendo que las políticas de RL se adapten a la imprevisibilidad del mundo real. La selección de los parámetros apropiados requiere razonamiento físico de sentido común, lo que lo convierte en un desafío ideal para los LLMs.

Implementación de DrEureka

DrEureka emplea un enfoque de múltiples pasos para optimizar funciones de recompensa y aleatorización de dominio simultáneamente. En primer lugar, un LLM genera funciones de recompensa basadas en instrucciones de seguridad y descripciones de tareas. Luego, el modelo utiliza estas instrucciones para desarrollar una función de recompensa inicial, aprendiendo una política similar a la del método original Eureka. A continuación, realiza pruebas para determinar los parámetros físicos óptimos, como fricción y gravedad, que guían la selección de configuraciones de aleatorización de dominio. Posteriormente, la política se reentrena con estas configuraciones, mejorando su robustez frente al ruido del mundo real.

Los investigadores describen a DrEureka como un "pipeline impulsado por modelos de lenguaje para la transferencia simulador-real con mínima intervención humana".

Resultados de Rendimiento

El equipo evaluó DrEureka en plataformas robóticas cuadrúpedas y de manipulación hábil. Los resultados demostraron que las políticas de locomoción cuadrúpede entrenadas con DrEureka superaron a los sistemas tradicionales diseñados por humanos en un 34% en velocidad de avance y un 20% en distancia recorrida sobre diversos terrenos. En pruebas de manipulación hábil, la mejor política desarrollada por DrEureka logró un 300% más de rotaciones de cubos en un tiempo fijo que las políticas creadas por humanos.

Una aplicación notable de DrEureka involucró a un perro robótico equilibrándose y caminando sobre una pelota de yoga. El LLM logró crear funciones de recompensa y configuraciones de DR que permitieron un rendimiento fluido en el mundo real, sin necesidad de ajustes adicionales y funcionando eficazmente en diversas superficies interiores y exteriores con soporte de seguridad mínimo.

El estudio también reveló que incluir instrucciones de seguridad en las descripciones de tareas influye significativamente en la coherencia lógica de las instrucciones generadas por el LLM para la transferencia al mundo real. "Creemos que DrEureka demuestra el potencial de acelerar la investigación en el aprendizaje robótico al automatizar los complejos elementos de diseño de la adquisición de habilidades de bajo nivel", concluyeron los investigadores.

DocuSign adquiere el proveedor de gestión de contratos impulsado por IA, Lexion, por $165 millones para mejorar su plataforma IAM.

OpenAI colabora con Stack Overflow para mejorar los modelos de IA y alcanzar la excelencia en la programación.

Most people like

tldraw

25.8K

Transforma tus bocetos en sitios web completamente funcionales.

creador de sitios web AI Website Builder

Explainpaper

90.1K

¿Te cuesta entender secciones complejas en artículos de investigación? ¡No estás solo! Muchos lectores se sienten confundidos por el lenguaje denso y la jerga intrincada. Esta guía aclarará esos textos confusos, desglosando pasajes difíciles y haciéndolos más accesibles. Al desmitificar el lenguaje de la investigación, buscamos mejorar tu comprensión y participación con los artículos académicos. ¡Vamos a sumergirnos y descubrir los conocimientos ocultos en estos documentos!

artículos de investigación Code Explanation

Google Business Profile Growth Manager

112.3K

El Gestor de Crecimiento del Perfil Comercial de Google está diseñado para empoderar a las empresas al mejorar el SEO local y optimizar sus perfiles en línea para una máxima visibilidad. Al aprovechar esta poderosa herramienta, las empresas pueden mejorar significativamente su presencia local y atraer a más clientes.

Perfil de Empresa de Google AI SEO Assistant

Glorify

170.8K

En el competitivo mundo del comercio electrónico, los diseños visualmente atractivos pueden determinar el éxito o fracaso de tu marca. Utilizar las herramientas de diseño gráfico en línea adecuadas es esencial para crear visuales cautivadores que mejoren la atractivo de tu tienda en línea. Descubre cómo estos recursos innovadores pueden simplificar los procesos de diseño, potenciar tus esfuerzos de marketing y, en última instancia, impulsar las ventas, haciendo que tu emprendimiento de comercio electrónico prospere.

Herramienta de diseño para comercio electrónico AI Graphic Design

Find AI tools in YBX