Stanford et Meta se rapprochent d'une IA ressemblant à l'humain grâce au modèle d'interaction innovant 'CHOIS'

Des chercheurs de l’Université de Stanford et du laboratoire Facebook AI Research (FAIR) de Meta ont dévoilé un système d'IA révolutionnaire capable de générer des mouvements réalistes et synchronisés entre des humains virtuels et des objets, en se basant uniquement sur des descriptions textuelles. Ce système innovant, nommé CHOIS (Syntèse Contrôlée d’Interactions Humain-Objet), utilise des techniques avancées de modèle de diffusion conditionnelle pour faciliter des interactions fluides. Par exemple, il peut interpréter et animer des instructions telles que « soulevez la table au-dessus de votre tête, marchez et reposez la table ».

La recherche, publiée sur arXiv, suggère un avenir où les êtres virtuels peuvent interpréter et exécuter des commandes linguistiques aussi aisément que les humains. « Générer des interactions humaines-objets continues à partir de descriptions textuelles dans des scènes 3D pose plusieurs défis », ont déclaré les chercheurs. Ils ont mis l’accent sur la nécessité d'assurer que les mouvements apparaissent réalistes, avec des mains humaines interagissant avec précision avec les objets, et que ceux-ci se déplacent en réponse aux actions humaines.

Fonctionnement de CHOIS

CHOIS excelle dans la création d'interactions humain-objet au sein d'un espace 3D. Au cœur de ce système se trouve un modèle de diffusion conditionnelle, un cadre génératif capable de simuler des séquences de mouvements détaillées. À partir d'un état initial des positions humaines et des objets, ainsi que d'une description textuelle de l'action désirée, CHOIS génère une séquence de mouvements pour accomplir la tâche. Par exemple, si on lui demande de rapprocher une lampe d'un canapé, CHOIS peut produire une animation réaliste d'un avatar humain prenant la lampe et la plaçant à côté du canapé.

Ce qui distingue CHOIS, c'est l'intégration de points de passage d'objets et d'entrées linguistiques pour guider les animations. Ces points servent de repères pour les phases clés du mouvement d'un objet, assurant que l’animation est non seulement réaliste mais également conforme à l'objectif global décrit dans l’entrée linguistique. De plus, CHOIS conjugue plus efficacement la compréhension du langage avec la simulation physique par rapport aux modèles traditionnels, souvent en difficulté pour établir une corrélation entre le langage et les actions spatiales sur de longues interractions. CHOIS interprète l'intention et le style des descriptions linguistiques et les traduit en une série de mouvements physiques en respectant les contraintes du corps humain et des objets impliqués.

Ce système garantit une représentation précise des points de contact, comme les mains touchant les objets, et aligne le mouvement des objets avec les forces exercées par l'avatar humain. En utilisant des fonctions de perte spécialisées et des termes d'orientation pendant les phases d'entraînement et de génération, CHOIS renforce ces contraintes physiques, marquant une avancée significative dans la capacité de l'IA à comprendre et interagir avec le monde physique comme le font les humains.

Implications pour les Graphismes Informatiques, l'IA et la Robotique

Les implications du système CHOIS pour les graphismes informatiques sont considérables, notamment dans l'animation et la réalité virtuelle. En permettant à l'IA d'interpréter des commandes en langage naturel pour des interactions humain-objet réalistes, CHOIS pourrait sensiblement simplifier le processus d'animation, réduisant le temps et l'effort traditionnellement requis pour la création de scènes complexes. Les animateurs pourraient tirer parti de cette technologie pour automatiser des séquences nécessitant généralement une animation par images clés méticuleuse. Dans le domaine de la réalité virtuelle, CHOIS pourrait offrir des expériences plus immersives, où les utilisateurs peuvent diriger des personnages virtuels par le biais d’un langage naturel et observer l'exécution réaliste des tâches, transformant ainsi des interactions pré-enregistrées en environnements dynamiques et réactifs.

Dans le domaine de l'IA et de la robotique, CHOIS représente une avancée majeure vers le développement de systèmes autonomes et contextuellement conscients. Au lieu de s'appuyer sur des routines préprogrammées, les robots pourraient utiliser CHOIS pour comprendre et réaliser des tâches décrites en langage humain. Cela pourrait révolutionner les robots de service dans des secteurs tels que la santé, l'hospitalité et les environnements domestiques en améliorant leur capacité à interpréter et exécuter diverses tâches dans des espaces physiques.

De plus, la capacité à traiter simultanément des entrées linguistiques et visuelles permet à l'IA d'atteindre un niveau de compréhension contextuelle qui était jusqu'à présent réservé aux humains. Cette avancée pourrait aboutir à des systèmes d'IA fonctionnant comme des assistants plus compétents dans des tâches complexes, comprenant non seulement le "quoi" mais aussi le "comment" des instructions humaines et s'adaptant à de nouveaux défis avec une flexibilité sans précédent.

Résultats Prometteurs et Perspectives d'Avenir

En résumé, la recherche collaborative de Stanford et de Meta marque des progrès significatifs à l'intersection de la vision par ordinateur, du traitement du langage naturel (NLP) et de la robotique. Les chercheurs considèrent ce travail comme une étape cruciale vers le développement de systèmes d'IA sophistiqués capables de simuler des comportements humains continus dans des environnements 3D variés. De plus, cela ouvre la voie à de futures explorations sur la synthèse d'interactions humain-objet à partir de scènes 3D et d'entrées linguistiques, pouvant potentiellement conduire à des technologies d'IA encore plus avancées à l'avenir.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles