Stanford et Meta se rapprochent d'une IA ressemblant à l'humain grâce au modèle d'interaction innovant 'CHOIS'

Home Actualités IA Stanford et Meta se rapprochent d'une IA ressemblant à l'humain grâce au modèle d'interaction innovant 'CHOIS'

Updated on décembre 8 2023

Des chercheurs de l’Université de Stanford et du laboratoire Facebook AI Research (FAIR) de Meta ont dévoilé un système d'IA révolutionnaire capable de générer des mouvements réalistes et synchronisés entre des humains virtuels et des objets, en se basant uniquement sur des descriptions textuelles. Ce système innovant, nommé CHOIS (Syntèse Contrôlée d’Interactions Humain-Objet), utilise des techniques avancées de modèle de diffusion conditionnelle pour faciliter des interactions fluides. Par exemple, il peut interpréter et animer des instructions telles que « soulevez la table au-dessus de votre tête, marchez et reposez la table ».

La recherche, publiée sur arXiv, suggère un avenir où les êtres virtuels peuvent interpréter et exécuter des commandes linguistiques aussi aisément que les humains. « Générer des interactions humaines-objets continues à partir de descriptions textuelles dans des scènes 3D pose plusieurs défis », ont déclaré les chercheurs. Ils ont mis l’accent sur la nécessité d'assurer que les mouvements apparaissent réalistes, avec des mains humaines interagissant avec précision avec les objets, et que ceux-ci se déplacent en réponse aux actions humaines.

Fonctionnement de CHOIS

CHOIS excelle dans la création d'interactions humain-objet au sein d'un espace 3D. Au cœur de ce système se trouve un modèle de diffusion conditionnelle, un cadre génératif capable de simuler des séquences de mouvements détaillées. À partir d'un état initial des positions humaines et des objets, ainsi que d'une description textuelle de l'action désirée, CHOIS génère une séquence de mouvements pour accomplir la tâche. Par exemple, si on lui demande de rapprocher une lampe d'un canapé, CHOIS peut produire une animation réaliste d'un avatar humain prenant la lampe et la plaçant à côté du canapé.

Ce qui distingue CHOIS, c'est l'intégration de points de passage d'objets et d'entrées linguistiques pour guider les animations. Ces points servent de repères pour les phases clés du mouvement d'un objet, assurant que l’animation est non seulement réaliste mais également conforme à l'objectif global décrit dans l’entrée linguistique. De plus, CHOIS conjugue plus efficacement la compréhension du langage avec la simulation physique par rapport aux modèles traditionnels, souvent en difficulté pour établir une corrélation entre le langage et les actions spatiales sur de longues interractions. CHOIS interprète l'intention et le style des descriptions linguistiques et les traduit en une série de mouvements physiques en respectant les contraintes du corps humain et des objets impliqués.

Ce système garantit une représentation précise des points de contact, comme les mains touchant les objets, et aligne le mouvement des objets avec les forces exercées par l'avatar humain. En utilisant des fonctions de perte spécialisées et des termes d'orientation pendant les phases d'entraînement et de génération, CHOIS renforce ces contraintes physiques, marquant une avancée significative dans la capacité de l'IA à comprendre et interagir avec le monde physique comme le font les humains.

Implications pour les Graphismes Informatiques, l'IA et la Robotique

Les implications du système CHOIS pour les graphismes informatiques sont considérables, notamment dans l'animation et la réalité virtuelle. En permettant à l'IA d'interpréter des commandes en langage naturel pour des interactions humain-objet réalistes, CHOIS pourrait sensiblement simplifier le processus d'animation, réduisant le temps et l'effort traditionnellement requis pour la création de scènes complexes. Les animateurs pourraient tirer parti de cette technologie pour automatiser des séquences nécessitant généralement une animation par images clés méticuleuse. Dans le domaine de la réalité virtuelle, CHOIS pourrait offrir des expériences plus immersives, où les utilisateurs peuvent diriger des personnages virtuels par le biais d’un langage naturel et observer l'exécution réaliste des tâches, transformant ainsi des interactions pré-enregistrées en environnements dynamiques et réactifs.

Dans le domaine de l'IA et de la robotique, CHOIS représente une avancée majeure vers le développement de systèmes autonomes et contextuellement conscients. Au lieu de s'appuyer sur des routines préprogrammées, les robots pourraient utiliser CHOIS pour comprendre et réaliser des tâches décrites en langage humain. Cela pourrait révolutionner les robots de service dans des secteurs tels que la santé, l'hospitalité et les environnements domestiques en améliorant leur capacité à interpréter et exécuter diverses tâches dans des espaces physiques.

De plus, la capacité à traiter simultanément des entrées linguistiques et visuelles permet à l'IA d'atteindre un niveau de compréhension contextuelle qui était jusqu'à présent réservé aux humains. Cette avancée pourrait aboutir à des systèmes d'IA fonctionnant comme des assistants plus compétents dans des tâches complexes, comprenant non seulement le "quoi" mais aussi le "comment" des instructions humaines et s'adaptant à de nouveaux défis avec une flexibilité sans précédent.

Résultats Prometteurs et Perspectives d'Avenir

En résumé, la recherche collaborative de Stanford et de Meta marque des progrès significatifs à l'intersection de la vision par ordinateur, du traitement du langage naturel (NLP) et de la robotique. Les chercheurs considèrent ce travail comme une étape cruciale vers le développement de systèmes d'IA sophistiqués capables de simuler des comportements humains continus dans des environnements 3D variés. De plus, cela ouvre la voie à de futures explorations sur la synthèse d'interactions humain-objet à partir de scènes 3D et d'entrées linguistiques, pouvant potentiellement conduire à des technologies d'IA encore plus avancées à l'avenir.

Guide du Développeur pour Démarrer Votre Parcours en IA Générative : Une Approche Personnalisée des Cas d'Utilisation

Transformer l'efficacité au travail : Comment l'IA peut réduire une tâche de deux heures à seulement 15 minutes avec le CTO de SAP, Juergen Mueller.

Most people like

Adpollo

13.2K

Transformez votre présence sur les réseaux sociaux grâce à notre plateforme alimentée par l'IA, conçue pour générer et programmer du contenu en toute fluidité. Créez facilement des publications engageantes qui résonnent avec votre audience et optimisez votre stratégie sur les réseaux sociaux pour un impact maximum. Que vous soyez une petite entreprise, un influenceur ou un marketeur, notre outil simplifie le processus pour vous aider à exceller dans votre gestion des réseaux sociaux.

IA AI Social Media Assistant

Vidnoz AI Tools

10.3M

Améliorez votre expérience de création vidéo avec notre outil gratuit alimenté par l'IA, conçu pour une automatisation sans effort.

création de vidéos AI Avatar Generator

Spellar AI

8.7K

Améliorez vos compétences en communication quotidienne grâce à des techniques personnalisées d'amélioration orale adaptées à vos besoins.

Assistant vocal alimenté par l'IA AI Product Description Generator

Gizmo

2.5M

Découvrez notre application propulsée par l'IA, conçue pour améliorer l'apprentissage et renforcer la mémoire. Grâce à une technologie de pointe, cette application offre des outils et des stratégies d'étude personnalisés adaptés à votre style d'apprentissage unique, garantissant une absorption plus efficace des informations et une rétention prolongée. Libérez votre plein potentiel avec le compagnon d'apprentissage ultime !

Apprentissage de l'IA AI Quizzes

Find AI tools in YBX