Le modèle innovant de contrôle de robot de DeepMind et Stanford exécute des tâches à partir d’instructions esquissées.

Home Actualités IA Le modèle innovant de contrôle de robot de DeepMind et Stanford exécute des tâches à partir d’instructions esquissées.

Les récentes avancées dans les modèles linguistiques et visuels ont considérablement amélioré la capacité des systèmes robotiques à suivre des instructions dérivées de textes ou d'images. Cependant, ces méthodes présentent des limites.

Une nouvelle étude menée par des chercheurs de l'Université de Stanford et de Google DeepMind propose d'utiliser des esquisses comme instructions pour les robots. Les esquisses fournissent des informations spatiales riches qui aident les robots à accomplir des tâches sans la confusion pouvant découler de l'encombrement d'images réalistes ou de l'ambiguïté du langage naturel.

Présentation de RT-Sketch

Les chercheurs ont développé RT-Sketch, un modèle utilisant des esquisses pour contrôler les robots. Ce modèle performe de manière comparable aux agents conditionnés par le langage et l'image dans des conditions standards, et le surpasse lorsque les instructions en langage et en image sont insuffisantes.

Pourquoi choisir les esquisses ?

Bien que le langage soit un moyen direct de transmettre des objectifs, il peut s'avérer inadapté pour des tâches nécessitant des manipulations précises, comme disposer des objets. Les images illustrent les objectifs souhaités avec détail, mais obtenir une image cible est souvent peu pratique. De plus, les images préenregistrées peuvent comporter trop de détails, entraînant un surajustement et une mauvaise généralisation dans de nouveaux environnements.

« Nous avons d'abord envisagé d'habiliter les robots à interpréter des manuels d'assemblage, comme les schémas IKEA, et à réaliser les manipulations nécessaires », a déclaré Priya Sundaresan, doctorante à l'Université de Stanford et auteure principale de l'étude. « Le langage est souvent trop ambigu pour ces tâches spatiales, et des images préexistantes peuvent ne pas être disponibles. »

L'équipe a choisi les esquisses en raison de leur simplicité, de leur facilité de production et de leur richesse informative. Les esquisses communiquent efficacement des arrangements spatiaux sans nécessiter de détail au niveau des pixels, permettant ainsi aux modèles d'identifier les objets pertinents pour la tâche et d'améliorer leurs capacités de généralisation.

« Nous considérons les esquisses comme une étape clé vers des méthodes plus pratiques et expressives pour permettre aux humains de donner des instructions aux robots », a expliqué Sundaresan.

Le modèle RT-Sketch

RT-Sketch s'appuie sur Robotics Transformer 1 (RT-1), un modèle qui traduit des instructions en langage en commandes robotiques. Les chercheurs ont adapté cette architecture pour utiliser des objectifs visuels, y compris des esquisses et des images.

Pour entraîner RT-Sketch, ils ont utilisé le dataset RT-1, qui comporte 80 000 enregistrements de tâches téléopérées en réalité virtuelle, comme la manipulation d'objets et les opérations de placard. Ils ont initialement créé des esquisses à partir de ces démonstrations en sélectionnant 500 exemples et en produisant des représentations dessinées à la main à partir des dernières images vidéo. Ces esquisses, ainsi que les images vidéo correspondantes, ont servi à entraîner un réseau antagoniste génératif (GAN) capable de convertir des images en esquisses.

Entraînement et fonctionnalité

Le GAN a généré des esquisses pour entraîner le modèle RT-Sketch, qui a ensuite été enrichi de variations pour imiter différents styles de dessins. En opération, le modèle accepte une image de la scène et une esquisse approximative de l'agencement souhaité des objets, générant une séquence de commandes pour que le robot atteigne l'objectif spécifié.

« RT-Sketch est avantageux pour les tâches spatiales où des instructions verbales détaillées seraient encombrantes ou lorsqu'une image n'est pas disponible », a déclaré Sundaresan.

Par exemple, dresser une table peut amener à des ambiguïtés avec des instructions telles que "mettre les ustensiles à côté de l'assiette". Cela pourrait nécessiter de nombreuses interactions pour clarifier la compréhension du modèle. En revanche, une simple esquisse peut indiquer clairement l'agencement souhaité.

« RT-Sketch pourrait également aider dans des tâches comme déballer des articles ou arranger des meubles dans un nouvel espace, ainsi que dans des tâches complexes à plusieurs étapes, telles que plier du linge », a ajouté Sundaresan.

Évaluation de RT-Sketch

Les chercheurs ont testé RT-Sketch dans divers scénarios, évaluant six compétences de manipulation telles que déplacer des objets, renverser des canettes et ouvrir des tiroirs. Le modèle a performé de manière comparable aux modèles existants conditionnés par l'image et le langage pour des tâches de manipulation de base et a surpassé les modèles basés sur le langage dans des scénarios où les objectifs étaient difficiles à formuler.

« Cela indique que les esquisses trouvent un équilibre efficace ; elles sont suffisamment concises pour éviter toute confusion due aux distractions visuelles tout en préservant le contexte sémantique et spatial nécessaire », a noté Sundaresan.

Perspectives d'avenir

Dans l'avenir, les chercheurs envisagent d'explorer des applications plus larges pour les esquisses, en les intégrant potentiellement avec d'autres modalités telles que le langage, les images et les gestes humains. DeepMind dispose de plusieurs modèles robotiques utilisant des approches multimodales, et les découvertes de RT-Sketch pourraient améliorer ces systèmes. Ils sont également enthousiasmés par la diversité du potentiel des esquisses au-delà de la représentation visuelle.

« Les esquisses peuvent transmettre des mouvements par des flèches, représenter des sous-objectifs avec des esquisses partielles et indiquer des contraintes par des griffonnages, fournissant des informations précieuses pour des tâches de manipulation que nous n'avons pas encore explorées », a conclu Sundaresan.

Kaedim obtient 15 millions de dollars pour faire avancer ses solutions de création d'actifs 3D alimentées par l'IA.

Pika améliore son créateur de vidéos avec des effets sonores génératifs en IA pour une création de contenu captivante.

Most people like

Luma Dream Machine

270.8K

Transformez votre contenu vidéo avec un générateur vidéo IA conçu pour produire des vidéos époustouflantes et de haute qualité sans effort. Que vous soyez une entreprise souhaitant améliorer vos supports marketing ou un créateur de contenu cherchant à captiver votre audience, notre technologie IA avancée simplifie la production vidéo. Découvrez comment vous pouvez élever votre narration et engager vos spectateurs comme jamais auparavant grâce à notre outil innovant de génération vidéo.

Générateur vidéo IA AI Video Generator

Zebracat

283.1K

Dans le paysage numérique actuel, un marketing efficace exige des visuels captivants qui résonnent avec les audiences. La création de vidéos marketing alimentée par l'IA simplifie le processus de production de contenu de haute qualité, permettant aux marques d'engager les spectateurs plus efficacement. En s'appuyant sur des algorithmes sophistiqués et l'apprentissage machine, les entreprises peuvent désormais créer des vidéos sur mesure qui non seulement attirent l’attention, mais favorisent également les conversions. Découvrez comment la technologie de l'IA transforme le marketing vidéo en un outil dynamique pour la croissance des marques et la connexion avec le public.

Créateur de vidéos IA AI Video Generator

Infography

32.6K

Cherchez-vous à améliorer le contenu de votre blog et à captiver votre audience ? Transformer vos articles en infographies accrocheuses est une méthode puissante pour présenter l'information de manière visuelle. Les infographies simplifient non seulement des données complexes, mais les rendent également plus partageables, augmentant ainsi la portée de votre contenu. Dans ce guide, nous explorerons des stratégies efficaces pour convertir votre contenu écrit en infographies époustouflantes qui engagent les lecteurs et rehaussent la visibilité de votre marque. Découvrez comment maximiser l'impact de vos articles de blog en exploitant l'art des infographies !

Infographies AI Photo & Image Generator

Vidnoz AI Tools

10.3M

Améliorez votre expérience de création vidéo avec notre outil gratuit alimenté par l'IA, conçu pour une automatisation sans effort.

création de vidéos AI Avatar Generator

Find AI tools in YBX