Le modèle de génération d'images de Meta s'élargit : il intègre désormais des fonctionnalités vidéo et un montage d'images amélioré.

Home Actualités IA Le modèle de génération d'images de Meta s'élargit : il intègre désormais des fonctionnalités vidéo et un montage d'images amélioré.

Updated on octobre 25 2024

Meta a réalisé d'importants progrès dans le domaine de l'intelligence artificielle générative avec le lancement de son modèle de génération d'images amélioré, Emu (Expressive Media Universe). Ce modèle puissant permet désormais de générer des vidéos à partir de textes tout en offrant des capacités avancées pour l'édition d'images précises.

Dévoilé lors de l'événement Meta Connect en septembre, la technologie d'Emu sert de fondation à de nombreuses expériences dynamiques d'IA générative sur les plateformes sociales de Meta. Par exemple, elle améliore les outils d'édition d'images sur Instagram, permettant aux utilisateurs de modifier facilement le style visuel ou l'arrière-plan d'une photo. Emu est intégré à Meta AI, une nouvelle plateforme d'assistance utilisateur qui fonctionne de manière similaire à ChatGPT d'OpenAI.

Le nouveau modèle Emu Video se distingue par sa capacité à produire des vidéos à partir de texte en langage naturel, d'images, ou d'une combinaison des deux. Contrairement aux modèles précédents comme Make-a-Video, qui reposaient sur cinq modèles de diffusion, Emu Video utilise une approche plus simple avec seulement deux modèles. Le processus se déroule en deux étapes principales : d'abord, il génère une image à partir du texte, puis il crée une vidéo guidée par le texte et l'image. Cette méthodologie simplifiée permet un entraînement plus efficace des modèles de génération vidéo. Dans des études utilisateurs, Emu Video a surpassé Make-a-Video, avec 96 % des participants préférant sa qualité et 85 % estimant qu'il respectait mieux leurs instructions textuelles. De plus, Emu Video peut animer des images téléchargées par les utilisateurs en fonction de requêtes textuelles spécifiques.

Une autre mise à jour intéressante est l’introduction d’Emu Edit, qui améliore les capacités d’édition d’images en utilisant des instructions en langage naturel. Les utilisateurs peuvent télécharger une image et préciser les modifications souhaitées. Par exemple, ils peuvent demander de retirer un élément, comme un caniche, pour le remplacer par un autre objet, tel qu'un banc rouge, simplement en tapant leur demande. Bien qu'il existe déjà des outils d'altération d'images alimentés par l'IA, comme ClipDrop et certaines fonctionnalités d'édition sur Runway, les chercheurs de Meta ont observé que les méthodes existantes aboutissent souvent à des modifications excessives ou à des performances médiocres en matière d'édition.

Dans un article de blog, Meta a souligné que l'objectif ne devrait pas seulement être de créer une image "croyable" mais de se concentrer sur la modification précise seulement des pixels pertinents à la demande de l'utilisateur. L'équipe a découvert qu'intégrer des tâches de vision par ordinateur comme instructions pour les modèles de génération d'images offrait un contrôle sans précédent dans le processus d'édition.

Pour développer Emu Edit, Meta a utilisé un ensemble de données complet de 10 millions d'images synthétisées, chacune comprenant une image d'entrée, une description de tâche détaillée et l'image de sortie ciblée. Cela permet au modèle de se conformer étroitement aux instructions de l'utilisateur tout en maintenant l'intégrité des éléments non liés dans l'image originale.

Les personnes intéressées à explorer les capacités d'Emu Edit peuvent visualiser les images générées sur Hugging Face. De plus, Meta a introduit le Emu Edit Test Set, une nouvelle référence conçue pour faciliter des tests supplémentaires des modèles d'édition d'images. Cet ensemble comprend sept tâches d'édition d'images différentes, telles que des modifications d'arrière-plan et des suppressions d'objets, ouvrant la voie à des avancées dans les technologies d'édition d'images précises.

Un système d'IA identifie rapidement les maladies rares en utilisant des ressources de données minimales.

OpenAI écarte son PDG Sam Altman : Qu'est-ce que cela signifie pour l'avenir de l'IA ?

Most people like

Wondershare Filmora

248.4K

Découvrez le meilleur éditeur vidéo facile à utiliser qui simplifie le processus d'édition pour tous, des débutants aux utilisateurs avancés. Créez des vidéos époustouflantes sans effort grâce à des outils et fonctionnalités intuitifs conçus pour une navigation rapide et un montage sans faille. Que vous réalisiez un projet personnel ou une présentation professionnelle, cet éditeur vidéo convivial est idéal pour tous vos besoins créatifs. Commencez à transformer vos séquences en histoires captivantes dès aujourd'hui !

Montage vidéo AI Video Editor

Planfit

157.3K

Découvrez des séances d'entraînement personnalisées et un coaching IA en temps réel conçus spécialement pour les débutants. Disponibles dès maintenant sur les plateformes iOS et Android pour un maximum de commodité.

Entraînements alimentés par l'IA AI App Builder

Voiser

228.8K

Voiser est un programme d'intelligence artificielle avancé conçu pour transformer en toute simplicité le texte en parole et vice versa, en utilisant des voix réalistes similaires à celles des humains pour améliorer la communication. Découvrez la puissance des technologies de synthèse vocale et de reconnaissance de la parole de pointe avec Voiser.

synthèse vocale AI Speech Recognition

HighlightFactCheck.com

Une plateforme complète conçue pour une vérification des faits en ligne rapide et précise.

vérification des faits Other

Find AI tools in YBX