Los científicos de la Universidad de California, Berkeley, han presentado una innovadora técnica de aprendizaje automático llamada “aprendizaje por refuerzo mediante retroalimentación de intervención” (RLIF). Este enfoque revolucionario simplifica el entrenamiento de sistemas de IA en entornos complejos.
RLIF combina el aprendizaje por refuerzo con el aprendizaje por imitación interactiva, dos métodos esenciales para entrenar inteligencia artificial. Es especialmente beneficioso en situaciones donde las señales de recompensa son escasas y la retroalimentación humana carece de precisión, un desafío común en la formación de robótica.
Comprendiendo las Técnicas: Aprendizaje por Refuerzo y Aprendizaje por Imitación
El aprendizaje por refuerzo destaca en entornos con funciones de recompensa claras, siendo eficaz en control óptimo, juegos y alineación de modelos de lenguaje grande (LLMs) con las preferencias humanas. Sin embargo, se enfrenta a dificultades en robótica, donde los objetivos complejos a menudo carecen de señales de recompensa explícitas.
En estas ocasiones, los ingenieros recurren al aprendizaje por imitación, una variante del aprendizaje supervisado que elimina la necesidad de señales de recompensa. En lugar de eso, se entrena a los modelos basándose en demostraciones humanas. Por ejemplo, un humano puede guiar un brazo robótico para manipular un objeto, proporcionando un ejemplo visual que la IA debe replicar. El agente considera estas demostraciones como datos de entrenamiento.
A pesar de sus ventajas, el aprendizaje por imitación enfrenta retos, especialmente el “problema de desajuste de distribución”. Esto ocurre cuando los agentes se encuentran con situaciones fuera de sus ejemplos de entrenamiento, lo que provoca caídas en el rendimiento. El aprendizaje por imitación interactivo aborda este problema permitiendo que expertos brinden retroalimentación en tiempo real, corrigiendo al agente durante sus acciones cuando se desvía del camino deseado. Sin embargo, este método depende en gran medida de intervenciones casi óptimas, lo cual puede no ser siempre viable, especialmente en robótica, donde la precisión humana puede variar.
Fusión de Enfoques: Aprendizaje por Refuerzo y Aprendizaje por Imitación
Los investigadores de U.C. Berkeley proponen un modelo híbrido que aprovecha las fortalezas de ambos tipos de aprendizaje. RLIF se basa en la idea de que reconocer errores suele ser más fácil que realizar correcciones perfectas.
En tareas complejas como la conducción autónoma, por ejemplo, una intervención (como frenar de golpe) señala una desviación, pero no proporciona un modelo de respuesta óptima. El agente de RL debe concentrarse no en imitar la acción, sino en evitar la circunstancia que motivó la intervención.
“Decidir intervenir durante un episodio de imitación interactiva puede proporcionar una señal de recompensa para el aprendizaje por refuerzo”, afirman los investigadores. Esto permite que los métodos de RL operen bajo suposiciones similares, pero más flexibles que el aprendizaje por imitación interactivo, utilizando intervenciones humanas sin presuponer que son óptimas.
RLIF entrena a los agentes combinando demostraciones e intervenciones interactivas, pero considera estas intervenciones como indicadoras de errores potenciales en lugar de guías definitivas para acciones óptimas.
“Esperamos que los expertos sean más propensos a intervenir cuando la política entrenada realiza acciones subóptimas”, subrayan los investigadores, enfatizando que las intervenciones sirven como señales valiosas para modificar el comportamiento de la IA.
Al abordar las limitaciones tanto del aprendizaje por refuerzo tradicional como del aprendizaje por imitación interactivo, como la necesidad de una función de recompensa exacta y de intervenciones óptimas, RLIF resulta más práctico para entornos complejos.
“Los expertos pueden encontrar más fácil identificar estados indeseables que actuar de manera óptima de forma consistente en esas situaciones”, añadieron los investigadores.
Evaluación de RLIF
El equipo de U.C. Berkeley evaluó RLIF frente a DAgger, un prominente algoritmo de aprendizaje por imitación interactivo. En entornos simulados, RLIF superó a las principales variantes de DAgger entre dos y tres veces en promedio, con esta diferencia ampliándose a cinco veces cuando las intervenciones de expertos eran subóptimas.
Las pruebas en el mundo real, que involucraron desafíos robóticos como la manipulación de objetos y el plegado de telas, validaron aún más la robustez y aplicabilidad de RLIF en situaciones prácticas.
Aunque RLIF presenta algunos desafíos, como altas demandas de datos y complejidades en la implementación en tiempo real, muestra un gran potencial para el entrenamiento de sistemas robóticos avanzados en diversas aplicaciones, convirtiéndolo en una herramienta transformadora en el campo de la IA.