Les chercheurs de l'Université de Tokyo et d'Alternative Machine ont développé un système de robot humanoïde nommé Alter3, capable de traduire des commandes en langage naturel directement en actions robotiques. En s'appuyant sur les connaissances approfondies intégrées dans des modèles de langage volumineux (LLM) tels que GPT-4, Alter3 peut réaliser des tâches complexes comme prendre des selfies ou simuler le comportement d'un fantôme.
Cette innovation représente une avancée majeure dans l'intégration des modèles fondamentaux avec les systèmes robotiques. Bien qu'une solution commerciale évolutive soit encore en perspective, les récents progrès ont dynamisé la recherche en robotique et présentent d'importantes promesses.
Transformer le Langage en Actions Robotiques
Alter3 utilise GPT-4 comme modèle central, traitant des instructions en langage naturel qui décrivent des actions ou des scénarios auxquels le robot doit répondre. Le modèle adopte un "cadre agentique" pour concevoir une série d'étapes d'action nécessaires pour atteindre l'objectif spécifié. Dans un premier temps, il agit en tant que planificateur, déterminant la séquence nécessaire pour la tâche souhaitée.
Alter3 utilise divers formats de prompts GPT-4 pour analyser les instructions et les mapper à des commandes robotiques. Comme GPT-4 n'a pas reçu de formation spécifique sur les commandes de programmation d'Alter3, les chercheurs exploitent son apprentissage contextuel pour adapter sa sortie à l'API du robot. Cela implique de fournir une liste de commandes et des exemples illustratifs de leur utilisation, permettant au modèle de traduire chaque étape d'action en commandes API exécutables pour le robot.
« Auparavant, nous contrôlions manuellement les 43 axes dans un ordre précis pour reproduire des poses humaines ou simuler des actions comme servir du thé ou jouer aux échecs, » notent les chercheurs. « Avec les LLM, nous sommes libérés de ce processus laborieux. »
Incorporation des Retours Humains
Étant donné que le langage peut être imprécis pour décrire les mouvements physiques, les séquences d'actions générées par le modèle ne produisent pas toujours le comportement robotique escompté. Pour y remédier, les chercheurs ont intégré un mécanisme de retour permettant aux utilisateurs d’affiner les commandes, telles que « Lève ton bras un peu plus. » Ces corrections sont traitées par un autre agent GPT-4, qui ajuste le code et renvoie la séquence d'action révisée pour exécution par le robot. Les plans et les codes améliorés sont ensuite stockés pour une application future.
L'intégration des retours humains et de la mémoire booste considérablement les performances d’Alter3. Les chercheurs ont évalué le robot à travers diverses tâches, allant d'actions simples comme prendre des selfies et siroter du thé à des imitations plus complexes telles qu'agir comme un fantôme ou un serpent. Le modèle a également démontré sa capacité à gérer des scénarios nécessitant une planification complexe.
« L'entraînement du LLM englobe diverses représentations linguistiques des mouvements. GPT-4 les traduit avec précision en commandes pour Alter3, » explique l'équipe.
Avec la vaste compréhension du comportement humain par GPT-4, il peut efficacement générer des plans de comportement réalistes pour les robots humanoïdes. Dans des expériences, l'équipe a réussi à doter Alter3 d'expressions émotionnelles telles que l'embarras et la joie.
« Même à partir de textes qui ne mentionnent pas explicitement des indices émotionnels, le LLM peut déduire des émotions appropriées, les reflétant dans les réponses physiques d'Alter3, » soulignent les chercheurs.
Progrès des Modèles Robotiques
L'adoption des modèles fondamentaux en recherche robotique prend rapidement de l'ampleur. Par exemple, Figure, valorisée à 2,6 milliards de dollars, utilise des modèles OpenAI pour interpréter les commandes humaines et exécuter des actions correspondantes dans le monde réel. Avec l'essor des capacités multi-modales dans les modèles fondamentaux, les systèmes robotiques sont prêts à améliorer leur raisonnement environnemental et leur prise de décision.
Alter3 illustre une tendance où des modèles fondamentaux prêts à l'emploi servent de modules de raisonnement et de planification au sein des systèmes de contrôle robotiques. Il est essentiel de noter qu'il ne s'appuie pas sur une version fine-tunée de GPT-4, permettant à son code d'être applicable à d'autres robots humanoïdes.
Des projets tels que RT-2-X et OpenVLA utilisent des modèles fondamentaux spécialisés conçus pour produire des commandes robotiques directement. Bien que ces modèles fournissent souvent des résultats plus stables et se généralisent à travers diverses tâches et environnements, ils nécessitent une expertise technique plus élevée et des coûts de développement accrus.
Néanmoins, un aspect critique souvent négligé dans ces initiatives est le défi fondamental permettant aux robots d'effectuer des tâches basiques, notamment saisir des objets, maintenir l'équilibre et naviguer dans les environnements. « Une part importante du travail se déroule à un niveau inférieur à ce que traitent ces modèles, » a déclaré Chris Paxton, scientifique en IA et en robotique, lors d'une récente interview. « C'est l'un des travaux les plus difficiles, principalement en raison du manque de données existantes. »