Des chercheurs de l'Université de Californie à Berkeley ont développé un système de contrôle innovant pour les robots humanoïdes, leur permettant de naviguer habilement à travers divers terrains et obstacles. Ce système, alimenté par l'IA, s'inspire des cadres d'apprentissage profond qui ont révolutionné les modèles de langage de grande taille (LLM). Son principe est simple : en analysant des observations récentes, l'IA peut prédire les états et actions futurs.
Entraîné uniquement en simulation, le système montre de solides performances dans des conditions réelles imprévisibles. En évaluant les interactions passées, il ajuste dynamiquement son comportement pour gérer efficacement de nouveaux scénarios qu'il n'a pas rencontrés lors de son entraînement.
Un Robot pour Tous les Terrains
Les robots humanoïdes, conçus pour ressembler à des humains, ont le potentiel de devenir des assistants inestimables capables d'effectuer diverses tâches physiques et cognitives. Cependant, la création de robots humanoïdes polyvalents pose des défis significatifs, notamment le développement d'un système de contrôle flexible.
Les systèmes de contrôle robotique traditionnels manquent souvent d'adaptabilité, étant conçus pour des tâches spécifiques et peinant à gérer l'imprévisibilité des terrains et conditions visuelles réelles. Cette rigidité limite leur utilité à des environnements contrôlés.
Ainsi, il y a un intérêt croissant pour les méthodes basées sur l'apprentissage pour le contrôle robotique. De tels systèmes peuvent ajuster leur comportement en fonction des données collectées lors de simulations ou d'interactions directes avec l'environnement.
Le système de contrôle de l'Université de Californie à Berkeley promet de guider habilement les robots humanoïdes à travers une gamme de scénarios. Déployé sur Digit, un robot humanoïde de taille réelle et polyvalent, ce système démontre des capacités exceptionnelles de marche en extérieur, naviguant avec fiabilité dans des environnements humains quotidiens comme les trottoirs, les pistes et les champs ouverts. Le robot parcourt habilement différentes surfaces, y compris le béton, le caoutchouc et l'herbe, sans tomber.
Les chercheurs rapportent : « Nous avons constaté que notre contrôleur était capable de marcher sur tous les terrains testés de manière fiable et étions à l'aise de l'utiliser sans échafaudage de sécurité. Au cours d'une semaine de tests en extérieur, nous n'avons observé aucune chute. »
De plus, le robot a été rigoureusement testé pour sa résilience face aux perturbations. Il gère efficacement les marches inattendues, les objets aléatoires sur son chemin, et même les projectiles, maintenant sa stabilité lorsqu'il est poussé ou tiré.
Contrôle des Robots avec des Transformers
Bien que plusieurs robots humanoïdes montrent des capacités impressionnantes, ce nouveau système se distingue par sa méthodologie d'entraînement et de déploiement.
Le modèle de contrôle IA a été entraîné uniquement en simulation, utilisant des milliers de domaines et des dizaines de milliards de scénarios au sein d'Isaac Gym, un environnement de simulation physique haute performance. Cette vaste expérience simulée se transpose parfaitement aux applications réelles sans ajustement supplémentaire, un processus connu sous le nom de transfert sim-à-réalité. Il est notable que le système a montré des capacités émergentes dans des scénarios réels, comme la navigation d'escaliers non explicitement couverts lors de l'entraînement.
Au cœur de ce système se trouve un « transformateur causal », un modèle d'apprentissage profond qui traite des observations et actions proprioceptives historiques. Ce transformateur identifie efficacement la pertinence d'informations spécifiques, telles que des motifs de démarche et des états de contact, en relation avec les observations du robot.
Les transformateurs, connus pour leur succès dans les modèles de langage de grande taille, sont particulièrement efficaces pour prédire les éléments suivants dans de vastes séquences de données. Le transformateur causal utilisé dans ce robot apprend à partir de séquences d'observations et d'actions, lui permettant d'anticiper les conséquences de son comportement et de s'adapter dynamiquement à des paysages variés, même inconnus.
Les chercheurs affirment : « Nous faisons l'hypothèse que l'historique des observations et des actions encode implicitement l'information sur le monde que peut utiliser un puissant modèle de transformateur pour adapter son comportement de manière dynamique en temps de test. » Ce concept, appelé « adaptation en contexte », est similaire à la façon dont les modèles de langage utilisent des informations contextuelles pour apprendre de nouvelles tâches et affiner les résultats lors de l'inférence.
Les transformateurs ont démontré leur supériorité par rapport à d'autres modèles séquentiels, comme les réseaux de convolution temporelle (TCN) et les réseaux à mémoire à court et long terme (LSTM). Leur architecture soutient l'évolutivité avec des données et des ressources computationnelles supplémentaires, et ils peuvent être améliorés en intégrant diverses modalités d'entrée.
Au cours de l'année écoulée, les transformateurs ont émergé comme des outils précieux au sein de la communauté robotique, plusieurs modèles utilisant leur polyvalence pour améliorer les capacités robotiques. Ils offrent des avantages substantiels, y compris un meilleur encodage de différentes modalités et la traduction d'instructions en langage naturel de haut niveau en étapes de planification concrètes pour les robots.
Les chercheurs concluent : « À l'instar de domaines tels que la vision et le langage, nous croyons que les transformateurs pourraient faciliter notre avancée future dans l'échelle des approches d'apprentissage pour la locomotion humanoïde dans le monde réel. »