Les récentes avancées dans les modèles linguistiques et visuels ont considérablement amélioré la capacité des systèmes robotiques à suivre des instructions dérivées de textes ou d'images. Cependant, ces méthodes présentent des limites.
Une nouvelle étude menée par des chercheurs de l'Université de Stanford et de Google DeepMind propose d'utiliser des esquisses comme instructions pour les robots. Les esquisses fournissent des informations spatiales riches qui aident les robots à accomplir des tâches sans la confusion pouvant découler de l'encombrement d'images réalistes ou de l'ambiguïté du langage naturel.
Présentation de RT-Sketch
Les chercheurs ont développé RT-Sketch, un modèle utilisant des esquisses pour contrôler les robots. Ce modèle performe de manière comparable aux agents conditionnés par le langage et l'image dans des conditions standards, et le surpasse lorsque les instructions en langage et en image sont insuffisantes.
Pourquoi choisir les esquisses ?
Bien que le langage soit un moyen direct de transmettre des objectifs, il peut s'avérer inadapté pour des tâches nécessitant des manipulations précises, comme disposer des objets. Les images illustrent les objectifs souhaités avec détail, mais obtenir une image cible est souvent peu pratique. De plus, les images préenregistrées peuvent comporter trop de détails, entraînant un surajustement et une mauvaise généralisation dans de nouveaux environnements.
« Nous avons d'abord envisagé d'habiliter les robots à interpréter des manuels d'assemblage, comme les schémas IKEA, et à réaliser les manipulations nécessaires », a déclaré Priya Sundaresan, doctorante à l'Université de Stanford et auteure principale de l'étude. « Le langage est souvent trop ambigu pour ces tâches spatiales, et des images préexistantes peuvent ne pas être disponibles. »
L'équipe a choisi les esquisses en raison de leur simplicité, de leur facilité de production et de leur richesse informative. Les esquisses communiquent efficacement des arrangements spatiaux sans nécessiter de détail au niveau des pixels, permettant ainsi aux modèles d'identifier les objets pertinents pour la tâche et d'améliorer leurs capacités de généralisation.
« Nous considérons les esquisses comme une étape clé vers des méthodes plus pratiques et expressives pour permettre aux humains de donner des instructions aux robots », a expliqué Sundaresan.
Le modèle RT-Sketch
RT-Sketch s'appuie sur Robotics Transformer 1 (RT-1), un modèle qui traduit des instructions en langage en commandes robotiques. Les chercheurs ont adapté cette architecture pour utiliser des objectifs visuels, y compris des esquisses et des images.
Pour entraîner RT-Sketch, ils ont utilisé le dataset RT-1, qui comporte 80 000 enregistrements de tâches téléopérées en réalité virtuelle, comme la manipulation d'objets et les opérations de placard. Ils ont initialement créé des esquisses à partir de ces démonstrations en sélectionnant 500 exemples et en produisant des représentations dessinées à la main à partir des dernières images vidéo. Ces esquisses, ainsi que les images vidéo correspondantes, ont servi à entraîner un réseau antagoniste génératif (GAN) capable de convertir des images en esquisses.
Entraînement et fonctionnalité
Le GAN a généré des esquisses pour entraîner le modèle RT-Sketch, qui a ensuite été enrichi de variations pour imiter différents styles de dessins. En opération, le modèle accepte une image de la scène et une esquisse approximative de l'agencement souhaité des objets, générant une séquence de commandes pour que le robot atteigne l'objectif spécifié.
« RT-Sketch est avantageux pour les tâches spatiales où des instructions verbales détaillées seraient encombrantes ou lorsqu'une image n'est pas disponible », a déclaré Sundaresan.
Par exemple, dresser une table peut amener à des ambiguïtés avec des instructions telles que "mettre les ustensiles à côté de l'assiette". Cela pourrait nécessiter de nombreuses interactions pour clarifier la compréhension du modèle. En revanche, une simple esquisse peut indiquer clairement l'agencement souhaité.
« RT-Sketch pourrait également aider dans des tâches comme déballer des articles ou arranger des meubles dans un nouvel espace, ainsi que dans des tâches complexes à plusieurs étapes, telles que plier du linge », a ajouté Sundaresan.
Évaluation de RT-Sketch
Les chercheurs ont testé RT-Sketch dans divers scénarios, évaluant six compétences de manipulation telles que déplacer des objets, renverser des canettes et ouvrir des tiroirs. Le modèle a performé de manière comparable aux modèles existants conditionnés par l'image et le langage pour des tâches de manipulation de base et a surpassé les modèles basés sur le langage dans des scénarios où les objectifs étaient difficiles à formuler.
« Cela indique que les esquisses trouvent un équilibre efficace ; elles sont suffisamment concises pour éviter toute confusion due aux distractions visuelles tout en préservant le contexte sémantique et spatial nécessaire », a noté Sundaresan.
Perspectives d'avenir
Dans l'avenir, les chercheurs envisagent d'explorer des applications plus larges pour les esquisses, en les intégrant potentiellement avec d'autres modalités telles que le langage, les images et les gestes humains. DeepMind dispose de plusieurs modèles robotiques utilisant des approches multimodales, et les découvertes de RT-Sketch pourraient améliorer ces systèmes. Ils sont également enthousiasmés par la diversité du potentiel des esquisses au-delà de la représentation visuelle.
« Les esquisses peuvent transmettre des mouvements par des flèches, représenter des sous-objectifs avec des esquisses partielles et indiquer des contraintes par des griffonnages, fournissant des informations précieuses pour des tâches de manipulation que nous n'avons pas encore explorées », a conclu Sundaresan.