Modèles Fondamentaux et Robotique : L'Émergence d'OpenVLA
Les modèles fondamentaux ont considérablement fait progresser la robotique en facilitant le développement de modèles vision-langage-action (VLA). Ces modèles sont capables de généraliser à des objets, des scènes et des tâches au-delà de leurs données d'entraînement initiales. Cependant, leur adoption a été limitée en raison de leur nature fermée et de l'absence de meilleures pratiques pour leur déploiement et leur adaptation à de nouveaux environnements.
Présentation d'OpenVLA
Pour relever ces défis, des chercheurs de l'Université de Stanford, de l'UC Berkeley, de Toyota Research Institute, de Google DeepMind et d'autres institutions ont lancé OpenVLA, un modèle VLA open source formé sur un ensemble diversifié de démonstrations de robot en conditions réelles. OpenVLA non seulement surpasse d'autres modèles dans les tâches robotiques, mais permet également un ajustement aisé pour améliorer les performances dans des environnements multitâches avec divers objets. Conçu pour l'efficacité, il utilise des techniques d'optimisation pour fonctionner sur des GPU grand public avec des coûts d'ajustement minimes.
L'Importance des Modèles Vision-Langage-Action
Les méthodes traditionnelles de manipulation robotique ont souvent du mal à généraliser au-delà de leurs scénarios d'entraînement. Elles sont généralement inefficaces face aux distractions ou aux objets invisibles et éprouvent des difficultés à s'adapter à des instructions de tâches légèrement modifiées. En revanche, les grands modèles linguistiques (LLM) et les modèles vision-langage (VLM) excellent dans la généralisation grâce à leurs ensembles de données d'entraînement à grande échelle. Récemment, des laboratoires de recherche ont commencé à intégrer les LLM et VLM comme composants fondamentaux pour le développement de politiques robotiques.
Deux approches principales incluent l'utilisation de LLM et VLM pré-entraînés au sein de systèmes modulaires pour la planification et l'exécution des tâches, et la construction de VLA à partir de zéro pour générer des actions de contrôle direct du robot. Des exemples notables tels que RT-2 et RT-2-X ont établi de nouveaux critères pour les politiques robotiques généralistes.
Cependant, les VLA actuels font face à deux grands défis : leur architecture fermée, qui limite la transparence dans l'entraînement et le mélange des données, et l'absence de pratiques standard pour leur déploiement et leur adaptation aux nouveaux robots et tâches. Les chercheurs insistent sur la nécessité de VLA généralistes open source pour favoriser une adaptation efficace, reflétant l'écosystème open source existant pour les modèles de langage.
L'Architecture d'OpenVLA
OpenVLA, comprenant 7 milliards de paramètres, s’appuie sur le modèle vision-langage Prismatic-7B et inclut un encodeur visuel à double partie pour l'extraction de caractéristiques d'image associé à un modèle de langage LLaMA-2 7B pour le traitement des instructions. Ajusté sur 970 000 trajectoires de manipulation robotique du dataset Open-X Embodiment, OpenVLA couvre un large éventail de tâches robotiques et d'environnements tout en générant des jetons d'action associés à des actions spécifiques du robot.
OpenVLA reçoit des instructions en langage naturel accompagnées d'images d'entrée, raisonnant à partir des deux pour déterminer la séquence optimale d'actions requises pour accomplir des tâches telles que "essuyer la table". Fait remarquable, il surpasse le modèle RT-2-X de 55 milliards de paramètres, précédemment considéré comme l'état de l'art pour les incarnations WidowX et Google Robot.
Ajustement Fin et Efficacité
Les chercheurs ont exploré des stratégies d'ajustement efficaces à travers sept tâches de manipulation, montrant que les politiques OpenVLA ajustées dépassent les alternatives pré-entraînées, notamment lors de la traduction d'instructions linguistiques en comportements multitâches impliquant divers objets. OpenVLA réussit à atteindre un taux de succès supérieur à 50 % dans l'ensemble des tâches testées, en faisant une option fiable pour l'apprentissage par imitation dans des scénarios variés.
Dans un souci d'accessibilité et d'efficacité, l’équipe a utilisé l'adaptation à faible rang (LoRA) pour l'ajustement, atteignant des ajustements spécifiques aux tâches en 10-15 heures sur un seul GPU A100, réduisant ainsi considérablement les exigences computationnelles. La quantification du modèle a par ailleurs diminué la taille du modèle, permettant son déploiement sur des GPU grand public sans compromettre les performances.
Open-Sourcing OpenVLA
Les chercheurs ont rendu le modèle OpenVLA complet open source, en fournissant des carnets de déploiement et d'ajustement ainsi que du code pour l'entraînement évolutif des VLA. Ils s'attendent à ce que ces ressources stimulent une exploration et une adaptation supplémentaires des VLA dans la robotique. La bibliothèque prend en charge l'ajustement sur des GPU individuels et peut orchestrer l'entraînement de VLA de milliard de paramètres à travers des clusters GPU multi-nœuds, s'alignant sur les techniques contemporaines d'optimisation et de parallélisation.
Les développements futurs pour OpenVLA visent à intégrer plusieurs entrées d'image et proprioceptives, ainsi qu’un historique d'observation. De plus, l'utilisation de VLM pré-entraînés sur des données d'image et de texte entrelacées pourrait renforcer la flexibilité de l'ajustement VLA.
Avec OpenVLA, la communauté robote se trouve à l'aube de progrès remarquables, rendant les modèles VLA plus accessibles et adaptables pour des applications variées.