Imagen 3 de Google : Le modèle fondamental amélioré de texte à image désormais disponible sur Vertex AI

Le modèle avancé de conversion de texte en image de Google, Imagen 3, est maintenant prêt à être lancé sur la plateforme Vertex AI. Cet outil d'intelligence artificielle de nouvelle génération sera disponible en prévisualisation pour certains clients, permettant aux développeurs de générer des images plus rapidement, avec une meilleure compréhension des prompts, des représentations plus photoréalistes des personnes, et des capacités de rendu de texte améliorées par rapport aux versions précédentes.

Présenté pour la première fois lors de Google I/O en mai, Imagen 3 a commencé son parcours avec un aperçu privé dans ImageFX pour des créateurs sélectionnés. L'annonce de Google a confirmé que ce puissant modèle d'IA sera bientôt accessible via Vertex AI.

Douglas Eck, directeur de la recherche chez Google DeepMind, a mis en avant ses capacités, affirmant : « C’est notre modèle de génération d’images le plus performant à ce jour. Imagen 3 est plus photoréaliste, plus riche en détails et minimise les artefacts visuels. Il comprend les prompts rédigés de manière naturelle et créative ; des instructions détaillées fournissent les meilleurs résultats. De plus, il excelle à intégrer des détails subtils issus de prompts plus longs et améliore le rendu du texte, un défi persistant dans les modèles de génération d'images précédents. »

Avec sa transition vers Vertex AI, Imagen 3 introduit un support multilingue, des fonctionnalités de sécurité solides telles que le marquage numérique SynthID de Google DeepMind, et la prise en charge de divers rapports d’aspect.

Shutterstock, leader de la photographie de stock, a déjà intégré ce modèle. Justin Hiza, vice-président des services de données chez Shutterstock, a déclaré : « Depuis l'intégration d'Imagen dans notre générateur d'images par IA, nos utilisateurs ont créé des millions d'images. Nous sommes ravis des améliorations qu'offre Imagen 3, permettant aux utilisateurs de concrétiser leurs idées plus rapidement sans compromettre la qualité. Cette avancée renforce l'engagement de Shutterstock envers un générateur d'images par IA éthique, garantissant sécurité et protection grâce à l'indemnisation de Google Cloud pour l'IA générative. »

Bien que Google continue d'évoluer avec Imagen, il n'a pas précisé quand son IA Gemini reprendra la génération d'images après avoir été critiquée pour des inexactitudes. Lors d'un récent point de presse, Thomas Kurian, PDG de Google Cloud, a clarifié la différence entre les deux modèles : « Gemini est un modèle multimodal conçu pour traiter divers types d'entrées, y compris images, vidéos et audios, permettant un raisonnement à travers ces modalités. En revanche, Imagen est un modèle de diffusion axé uniquement sur la génération de sorties text-to-image de haute fidélité. Ils ont des objectifs distincts. »

Les questions concernant le calendrier du retour des fonctionnalités d'image de Gemini demeurent sans réponse.

Most people like

Find AI tools in YBX