Ces derniers mois, de nombreux projets ont émergé, exploitant les modèles de langage de grande taille (LLMs) pour développer des applications robotiques innovantes, autrefois jugées impossibles. La puissance des LLMs et des modèles multi-modaux permet aux chercheurs de concevoir des robots capables d'interpréter des commandes en langage naturel et d'exécuter des tâches complexes nécessitant un raisonnement avancé. Cet intérêt croissant à l'intersection des LLMs et de la robotique revitalise le paysage des startups robotiques, de nombreuses entreprises réussissant à obtenir des financements importants et à réaliser des démonstrations impressionnantes. Grâce aux avancées remarquables des LLMs s'intégrant dans des applications concrètes, nous pourrions être à l'aube d'une nouvelle ère dans le domaine de la robotique.
Modèles de Langage pour la Perception et le Raisonnement
Traditionnellement, la construction de systèmes robotiques nécessitait des efforts d'ingénierie complexes pour développer des modules de planification et de raisonnement, rendant difficile la création d'interfaces conviviales pour les diverses manières dont les utilisateurs émettent des commandes. L'émergence des LLMs et des modèles de vision-langage (VLMs) a permis aux ingénieurs en robotique d'améliorer les systèmes existants de manière révolutionnaire. Un projet clé dans ce domaine est SayCan, développé par Google Research. SayCan a utilisé les connaissances sémantiques intégrées dans un LLM pour aider les robots à raisonner sur les tâches et à déterminer les séquences d'actions appropriées. « SayCan a été l'un des articles les plus influents en robotique », a déclaré Chris Paxton, chercheur en IA et en robotique. « Son design modulaire permet l'intégration de différents composants pour créer des systèmes capables de démonstrations convaincantes. »
Après SayCan, les chercheurs ont commencé à explorer l'application des modèles de langage et de vision de diverses manières dans la robotique, entraînant des avancées significatives. Certains projets utilisent des LLMs et des VLMs polyvalents, tandis que d'autres se concentrent sur l'adaptation de modèles existants à des tâches robotiques spécifiques. « L’utilisation de modèles de langage et de vision a rendu des aspects comme la perception et le raisonnement beaucoup plus accessibles », a observé Paxton. « Cela a rendu de nombreuses tâches robotiques plus réalisables que jamais. »
Combiner les Capacités Existantes
Une limite majeure des systèmes robotiques traditionnels réside dans leurs mécanismes de contrôle. Les équipes peuvent former des robots pour des compétences individuelles, comme ouvrir des portes ou manipuler des objets, mais la combinaison de ces compétences pour des tâches complexes peut poser problème, entraînant des systèmes rigides nécessitant des instructions explicites. Les LLMs et VLMs permettent aux robots d'interpréter des instructions vaguement définies et de les associer à des séquences de tâches spécifiques à leurs capacités. Fait intéressant, de nombreux modèles avancés peuvent réaliser cela sans réentraînement conséquent. « Avec les modèles de langage de grande taille, je peux connecter aisément différentes compétences et raisonner sur leur application », a expliqué Paxton. « Les modèles de langage visuel plus récents, comme GPT-4V, illustrent comment ces systèmes peuvent collaborer efficacement à travers diverses applications. »
Par exemple, GenEM, une technique développée par l'Université de Toronto, Google DeepMind, et Hoku Labs, utilise le contexte social capturé dans les LLMs pour générer des comportements robotiques expressifs. En s'appuyant sur GPT-4, GenEM permet aux robots de comprendre des contextes – comme hocher la tête pour reconnaître la présence de quelqu'un – et d’exécuter des actions pertinentes, tirant parti de ses vastes données d'entraînement et de ses capacités d'apprentissage contextuel. Un autre exemple est OK-Robot, développé par Meta et l'Université de New York, qui fusionne les VLMs avec des modules de planification de mouvement et de manipulation d'objets pour réaliser des tâches de prise et de déposition dans des environnements inconnus.
Certaines startups robotiques prospèrent au milieu de ces avancées. Figure, une entreprise de robotique basée en Californie, a récemment levé 675 millions de dollars pour développer des robots humanoïdes utilisant des modèles de vision et de langage. Leurs robots exploitent les modèles d'OpenAI pour traiter des instructions et planifier stratégiquement des actions. Cependant, bien que les LLMs et VLMs répondent à des défis importants, les équipes de robotique doivent encore concevoir des systèmes pour des compétences fondamentales, telles que saisir des objets, naviguer des obstacles et manœuvrer dans divers environnements. « Un travail substantiel se déroule à un niveau fondamental que ces modèles ne gèrent pas encore », a déclaré Paxton. « Cette complexité souligne le besoin de données, que de nombreuses entreprises s'efforcent désormais de générer. »
Modèles Fondamentaux Spécialisés
Une autre approche prometteuse consiste à créer des modèles fondamentaux spécialisés pour la robotique qui s'appuient sur les vastes connaissances intégrées dans des modèles pré-entraînés tout en personnalisant leurs architectures pour des tâches robotiques. Un effort majeur dans ce domaine est le RT-2 de Google, un modèle d'action vision-langage (VLA) qui traite les données de perception et les instructions linguistiques pour générer des commandes exploitables pour les robots. Récemment, Google DeepMind a dévoilé RT-X-2, une version améliorée de RT-2 capable de s'adapter à diverses morphologies robotiques tout en accomplissant des tâches non incluses dans son jeu de données d'entraînement. De plus, RT-Sketch, une collaboration entre DeepMind et l'Université de Stanford, traduit des croquis sommaires en plans d'action robotique exécutables. « Ces modèles représentent une nouvelle approche, servant de politique expansive capable de gérer plusieurs tâches », a remarqué Paxton. « C'est une direction passionnante animée par l'apprentissage de bout en bout, où un robot peut dériver ses actions d'un flux vidéo. »
Les modèles fondamentaux pour la robotique entrent de plus en plus dans l'arène commerciale. Covariant a récemment introduit RFM-1, un modèle de transformeur de 8 milliards de paramètres entraîné sur des entrées variées, y compris du texte, des images, des vidéos et des actions robotiques, visant à créer un modèle fondamental polyvalent pour diverses applications robotiques. Pendant ce temps, le projet GR00T, présenté à Nvidia GTC, vise à permettre aux robots humanoïdes de traiter des entrées telles que du texte, la parole et des vidéos, les traduisant en actions spécifiques. Le plein potentiel des modèles de langage reste largement inexploité et continuera de propulser la recherche en robotique en avant. À mesure que les LLMs évolueront, nous pouvons anticiper des innovations révolutionnaires dans le domaine de la robotique.