Google a dévoilé d'importantes mises à jour de sa famille de modèles de génération d'images, y compris Imagen 2, qui offre désormais des capacités de texte à animation, permettant aux utilisateurs de convertir des invites textuelles en images animées. Le modèle introduit également des fonctionnalités d'édition d'images, telles que l'inpainting, l'outpainting et le filigrane numérique, désormais accessibles au grand public.
Annoncée lors de la conférence Google Cloud Next, la fonctionnalité de texte à animation d'Imagen 2 génère des GIFs animés à 24 images par seconde, avec une résolution de 360x640 pixels et une durée de quatre secondes. Google a annoncé des plans pour des améliorations continues de cette fonctionnalité.
Lors d'une conférence de presse, le PDG de Google Cloud, Thomas Kurian, a expliqué : « Au lieu d'avoir une image statique d'un objet, comme une voiture, les utilisateurs peuvent désormais voir une courte animation d'un véhicule en mouvement. Les organisations, en particulier dans les médias et la publicité, adoptent cette technologie pour accroître l'engagement des utilisateurs. »
Imagen 2 est conçu pour créer des images avec divers angles de caméra et mouvements, tout en garantissant la cohérence de l'ensemble de l'animation. Il intègre également des filtres de sécurité et des filigranes numériques, répondant ainsi à des préoccupations majeures liées à l'IA générative.
Les nouvelles fonctionnalités d'édition d'images permettent aux utilisateurs d'ajouter ou de supprimer des éléments de photos, semblables aux outils de remplissage génératif ou de contenu adaptatif d'Adobe Photoshop. Les utilisateurs peuvent également élargir les bordures de l'image pour un aperçu plus large.
Ces mises à jour font partie des annonces de Google concernant Vertex AI, sa plateforme d'IA cloud entièrement gérée. Lancé en 2023, Imagen 2 est un produit de Google DeepMind, conçu pour générer des images photoréalistes et haute résolution à partir de instructions en langage naturel. Il concurrence d'autres modèles de premier plan tels que DALL-E d'OpenAI, Midjourney et Adobe Firefly, spécifiquement destinés à aider les entreprises à produire des images conformes à leurs directives de marque et normes de gouvernance.