Meta a réalisé d'importants progrès dans le domaine de l'intelligence artificielle générative avec le lancement de son modèle de génération d'images amélioré, Emu (Expressive Media Universe). Ce modèle puissant permet désormais de générer des vidéos à partir de textes tout en offrant des capacités avancées pour l'édition d'images précises.
Dévoilé lors de l'événement Meta Connect en septembre, la technologie d'Emu sert de fondation à de nombreuses expériences dynamiques d'IA générative sur les plateformes sociales de Meta. Par exemple, elle améliore les outils d'édition d'images sur Instagram, permettant aux utilisateurs de modifier facilement le style visuel ou l'arrière-plan d'une photo. Emu est intégré à Meta AI, une nouvelle plateforme d'assistance utilisateur qui fonctionne de manière similaire à ChatGPT d'OpenAI.
Le nouveau modèle Emu Video se distingue par sa capacité à produire des vidéos à partir de texte en langage naturel, d'images, ou d'une combinaison des deux. Contrairement aux modèles précédents comme Make-a-Video, qui reposaient sur cinq modèles de diffusion, Emu Video utilise une approche plus simple avec seulement deux modèles. Le processus se déroule en deux étapes principales : d'abord, il génère une image à partir du texte, puis il crée une vidéo guidée par le texte et l'image. Cette méthodologie simplifiée permet un entraînement plus efficace des modèles de génération vidéo. Dans des études utilisateurs, Emu Video a surpassé Make-a-Video, avec 96 % des participants préférant sa qualité et 85 % estimant qu'il respectait mieux leurs instructions textuelles. De plus, Emu Video peut animer des images téléchargées par les utilisateurs en fonction de requêtes textuelles spécifiques.
Une autre mise à jour intéressante est l’introduction d’Emu Edit, qui améliore les capacités d’édition d’images en utilisant des instructions en langage naturel. Les utilisateurs peuvent télécharger une image et préciser les modifications souhaitées. Par exemple, ils peuvent demander de retirer un élément, comme un caniche, pour le remplacer par un autre objet, tel qu'un banc rouge, simplement en tapant leur demande. Bien qu'il existe déjà des outils d'altération d'images alimentés par l'IA, comme ClipDrop et certaines fonctionnalités d'édition sur Runway, les chercheurs de Meta ont observé que les méthodes existantes aboutissent souvent à des modifications excessives ou à des performances médiocres en matière d'édition.
Dans un article de blog, Meta a souligné que l'objectif ne devrait pas seulement être de créer une image "croyable" mais de se concentrer sur la modification précise seulement des pixels pertinents à la demande de l'utilisateur. L'équipe a découvert qu'intégrer des tâches de vision par ordinateur comme instructions pour les modèles de génération d'images offrait un contrôle sans précédent dans le processus d'édition.
Pour développer Emu Edit, Meta a utilisé un ensemble de données complet de 10 millions d'images synthétisées, chacune comprenant une image d'entrée, une description de tâche détaillée et l'image de sortie ciblée. Cela permet au modèle de se conformer étroitement aux instructions de l'utilisateur tout en maintenant l'intégrité des éléments non liés dans l'image originale.
Les personnes intéressées à explorer les capacités d'Emu Edit peuvent visualiser les images générées sur Hugging Face. De plus, Meta a introduit le Emu Edit Test Set, une nouvelle référence conçue pour faciliter des tests supplémentaires des modèles d'édition d'images. Cet ensemble comprend sept tâches d'édition d'images différentes, telles que des modifications d'arrière-plan et des suppressions d'objets, ouvrant la voie à des avancées dans les technologies d'édition d'images précises.