Des avancées récentes dans les modèles de vision-langage (VLM) permettent de faire correspondre des requêtes en langage naturel à des objets dans des scènes visuelles. Les chercheurs explorent comment intégrer ces modèles dans des systèmes robotiques, qui peinent souvent à généraliser leurs capacités.
Un article révolutionnaire des chercheurs de Meta AI et de l'Université de New York présente un cadre basé sur la connaissance ouverte appelé OK-Robot. Ce système innovant combine des modèles d'apprentissage automatique pré-entraînés pour effectuer des tâches dans des environnements inconnus, spécifiquement pour des opérations de ramassage et de dépôt sans nécessiter d'entraînement supplémentaire.
Les Défis des Systèmes Robotiques Actuels
La plupart des systèmes robotiques sont conçus pour des environnements déjà rencontrés, limitant leur capacité à s'adapter à de nouveaux espaces, notamment dans des environnements non structurés comme les maisons. Bien que des progrès significatifs aient été réalisés dans divers composants—comme les VLM qui excellent à relier les requêtes linguistiques avec des objets visuels et les compétences robotiques améliorées en navigation et en saisie—l'intégration de ces technologies entraîne encore des performances sous-optimales.
Les chercheurs soulignent : "Faire progresser ce problème nécessite un cadre précis et nuancé qui intègre les VLM et les primitives robotiques tout en restant suffisamment flexible pour incorporer de nouveaux modèles issus des communautés de VLM et de robotique."
Aperçu d'OK-Robot
OK-Robot intègre des VLM de pointe avec des mécanismes robotiques robustes pour exécuter des tâches de ramassage et de dépôt dans des environnements inédits. Il utilise des modèles entraînés sur d'importants ensembles de données publiques.
Le cadre se compose de trois sous-systèmes principaux : un module de navigation d'objet à vocabulaire ouvert, un module de saisie RGB-D, et un système heuristique de dépôt. À l'entrée d'un nouvel espace, OK-Robot nécessite un scan manuel, réalisable facilement via une application iPhone qui capture une série d'images RGB-D pendant que l'utilisateur se déplace dans la zone. Ces images, combinées à la position de la caméra, créent une carte environnementale 3D.
Chaque image est traitée à l'aide d'un modèle de transformateur visuel (ViT) pour extraire des informations sur les objets. Ces données, ainsi que le contexte environnemental, alimentent un module de mémoire sémantique d'objet, permettant au système de répondre à des requêtes en langage naturel pour la récupération d'objet. La mémoire calcule des embeddings des requêtes vocales et les associe à la représentation sémantique la plus proche. Les algorithmes de navigation tracent ensuite le chemin le plus efficace vers l'objet, en s'assurant que le robot dispose de suffisamment d'espace pour saisir l'objet en toute sécurité.
Enfin, le robot utilise une caméra RGB-D avec un modèle de segmentation d'objet et un modèle de saisie pré-entraîné pour prendre l'objet. Une méthode similaire est appliquée pour se diriger vers le point de dépôt. Ce système permet au robot de déterminer la saisie la plus adaptée pour différents types d'objets et de gérer des emplacements de destination qui peuvent être irréguliers. "De l'entrée dans un environnement totalement nouveau au début d'opérations autonomes, notre système met en moyenne moins de 10 minutes à accomplir sa première tâche de ramassage et de dépôt," rapportent les chercheurs.
Tests et Résultats
Les chercheurs ont évalué OK-Robot dans dix maisons, réalisant 171 expériences de ramassage et de dépôt. Il a réussi à accomplir des opérations complètes 58% du temps, mettant en évidence ses capacités en zéro-shot—c'est-à-dire que les modèles n'ont pas été explicitement entraînés pour ces environnements. En affinant les requêtes, en désencombrant les espaces et en minimisant les objets hostiles, le taux de réussite peut dépasser 82%.
Malgré son potentiel, OK-Robot présente des limites. Il aligne parfois incorrectement les requêtes en langage naturel avec les objets appropriés, a des difficultés avec certaines saisies, et souffre de contraintes matérielles. De plus, le module de mémoire d'objet reste statique après le scan, empêchant le robot de s'adapter aux changements de position ou de disponibilité des objets.
Malgré ces défis, le projet OK-Robot offre des perspectives essentielles. D'abord, il démontre que les VLM à vocabulaire ouvert actuels excellent à identifier une variété d'objets du monde réel et à naviguer vers eux en apprentissage zéro-shot. De plus, il confirme que les modèles robotiques spécialisés pré-entraînés sur d'énormes ensembles de données peuvent faciliter sans effort la saisie à vocabulaire ouvert dans de nouveaux environnements. Enfin, il met en lumière le potentiel de la combinaison de modèles pré-entraînés pour accomplir des tâches en zéro-shot sans entraînement supplémentaire, ouvrant la voie à de nouvelles avancées dans ce domaine émergent.