Des chercheurs de l’Université de Californie à Berkeley ont présenté une technique d'apprentissage automatique révolutionnaire appelée « apprentissage par renforcement via retour d'intervention » (RLIF). Cette approche innovante simplifie l’entraînement des systèmes d’IA dans des environnements complexes.
Le RLIF combine l'apprentissage par renforcement et l'apprentissage par imitation interactif, deux méthodes essentielles pour former l'intelligence artificielle. Elle est particulièrement bénéfique dans des scénarios où les signaux de récompense sont rares et le retour humain peu précis, un défi courant dans l'entraînement robotique.
Comprendre les Techniques : Apprentissage par Renforcement et Apprentissage par Imitation
L'apprentissage par renforcement excelle dans des environnements avec des fonctions de récompense claires, ce qui le rend efficace pour le contrôle optimal, les jeux et l’alignement des grands modèles de langage (LLMs) avec les préférences humaines. Cependant, il rencontre des difficultés en robotique, où les objectifs complexes manquent souvent de signaux de récompense explicites.
Dans ces cas, les ingénieurs se tournent vers l'apprentissage par imitation, un sous-ensemble de l'apprentissage supervisé qui élimine le besoin de signaux de récompense. Ce type d'apprentissage forme les modèles à partir des démonstrations humaines. Par exemple, un humain peut guider un bras robotique pour manipuler un objet, fournissant un exemple visuel que l'IA doit reproduire. L'agent considère ces démonstrations comme des données d'entraînement.
Bien que bénéfique, l'apprentissage par imitation présente des défis, notamment le « problème de décalage de distribution ». Cela se produit lorsque les agents rencontrent des scénarios en dehors de leurs exemples d'entraînement, entraînant une chute de performance. L'apprentissage par imitation interactif répond à ce problème en permettant à des experts de donner un retour en temps réel, corrigeant l'agent lors de ses actions lorsqu'il s'écarte du chemin souhaité. Cependant, cette méthode dépend souvent d'interventions presque optimales, ce qui peut ne pas être toujours réalisable, surtout en robotique où la précision humaine peut varier.
Fusionner les Approches : Apprentissage par Renforcement et Apprentissage par Imitation
Les chercheurs de U.C. Berkeley proposent un modèle hybride tirant parti des forces de l'apprentissage par renforcement et de l'apprentissage par imitation interactif. Le RLIF repose sur l'idée que reconnaître les erreurs est généralement plus facile que d’exécuter des corrections parfaites.
Dans des tâches complexes comme la conduite autonome, par exemple, une intervention (comme freiner brusquement) signale un écart sans fournir un modèle de réponse optimal. L'agent RL doit se concentrer non pas sur l'imitation de l'action, mais sur l'évitement de la circonstance qui a entraîné l'intervention.
« La décision d'intervenir lors d'un épisode d'apprentissage par imitation interactif peut fournir un signal de récompense pour l'apprentissage par renforcement », indiquent les chercheurs. Cela permet aux méthodes RL de fonctionner sous des hypothèses similaires mais plus flexibles, utilisant les interventions humaines sans supposer qu'elles soient optimales.
Le RLIF s’entraîne avec une combinaison de démonstrations et d'interventions interactives, tout en considérant ces interventions comme des indicateurs d'erreurs potentielles plutôt que comme des guides définitifs pour une action optimale.
« Nous nous attendons à ce que les experts soient plus enclins à intervenir lorsque la politique entraînée exécute des actions non optimales », ajoutent les chercheurs, soulignant que les interventions servent de signaux précieux pour modifier le comportement de l'IA.
En s'attaquant aux limitations de l'apprentissage par renforcement traditionnel et de l'apprentissage par imitation interactif—telles que le besoin d'une fonction de récompense exacte et d'interventions optimales—le RLIF s'avère plus pratique pour des environnements complexes. « Les experts peuvent trouver plus facile d'identifier des états indésirables que d'agir de manière optimale dans ces situations », ajoutent les chercheurs.
Tester le RLIF
L'équipe de U.C. Berkeley a évalué le RLIF par rapport à DAgger, un algorithme d'apprentissage par imitation interactif de premier plan. Dans des environnements simulés, le RLIF a surpassé les meilleures variantes de DAgger par deux à trois fois en moyenne, cette différence atteignant cinq fois lorsque les interventions des experts étaient non optimales.
Des tests en conditions réelles impliquant des défis robotiques, comme la manipulation d'objets et le pliage de tissus, ont davantage validé la robustesse et l'applicabilité du RLIF dans des situations pratiques.
Bien que le RLIF présente certains défis—comme des besoins en données élevés et des complexités dans le déploiement en temps réel—il offre un potentiel significatif pour l'entraînement de systèmes robotiques avancés dans diverses applications, en faisant un outil transformateur dans le domaine de l'IA.