Apple dévoile ‘MGIE’ : le modèle d'IA innovant qui transforme l'édition d'images basée sur l'instruction.

Apple a lancé un modèle d'IA open source révolutionnaire appelé « MGIE » (MLLM-Guided Image Editing), conçu pour éditer des images en fonction d'instructions en langage naturel. En s'appuyant sur des modèles de langage multimodaux (MLLM), MGIE interprète les commandes des utilisateurs pour effectuer des modifications précises au pixel près. Il excelle dans diverses tâches d'édition, notamment les ajustements de type Photoshop, l'optimisation globale et les modifications localisées.

Ce modèle innovant est le fruit d'une collaboration entre Apple et des chercheurs de l'Université de Californie à Santa Barbara, et a été présenté lors de la Conférence internationale sur les représentations d'apprentissage (ICLR) 2024, un événement de premier plan dans la recherche en IA. Le document de recherche démontre l'efficacité de MGIE dans l'amélioration des métriques automatiques et des évaluations humaines tout en garantissant une efficacité d'inférence compétitive.

Comment fonctionne MGIE ?

MGIE exploite la puissance des MLLM, capables de comprendre à la fois le texte et les images, pour affiner l'édition d'images basée sur des instructions. Traditionnellement, les MLLM ont été sous-utilisés dans les tâches d'édition d'images malgré leurs capacités impressionnantes en compréhension croisée.

MGIE intègre les MLLM dans le flux de travail d'édition de deux manières principales :

1. Dérivation d'instructions expressives : MGIE transforme les requêtes des utilisateurs en instructions concises pour l'édition. Par exemple, la phrase « rendre le ciel plus bleu » peut donner l'instruction « augmenter la saturation de la région du ciel de 20 % ».

2. Génération d'imagination visuelle : Le modèle crée une représentation latente de l'édition souhaitée, guidant ainsi les ajustements au niveau des pixels. MGIE utilise un nouveau schéma d'entraînement de bout en bout qui combine de manière optimale la dérivation d'instructions, la représentation visuelle et les fonctions d'édition.

Que peut faire MGIE ?

MGIE est polyvalent, capable de gérer une variété de scénarios d'édition, des ajustements de couleur de base aux manipulations complexes d'objets. Ses fonctionnalités incluent :

- Édition basée sur des instructions expressives : Produit des instructions claires qui améliorent la qualité de l'édition et l'expérience utilisateur.

- Modification de style Photoshop : Effectue des éditions courantes telles que le recadrage, le redimensionnement, la rotation et des ajustements avancés comme le remplacement d'arrière-plan et le mélange d'objets.

- Optimisation photo globale : Améliore la qualité globale des images, ajustant la luminosité, le contraste, la netteté et appliquant des effets artistiques.

- Édition locale : Cible des zones spécifiques de l'image (par exemple, visages, vêtements), permettant aux utilisateurs de modifier des attributs tels que la taille, la couleur et la texture.

Comment utiliser MGIE ?

MGIE est accessible en tant que projet open source sur GitHub, offrant aux utilisateurs du code, des données et des modèles pré-entraînés. Un carnet de démonstration illustre diverses tâches d'édition, et les utilisateurs peuvent expérimenter avec MGIE grâce à une démo en ligne hébergée sur Hugging Face Spaces.

Conçu pour être convivial, MGIE permet aux utilisateurs d'entrer des commandes en langage naturel, générant des images modifiées et des instructions détaillées. Les utilisateurs peuvent donner leur avis pour affiner les modifications ou demander des alternatives, le rendant adaptable à l'intégration avec d'autres applications nécessitant des capacités d'édition d'images.

Pourquoi MGIE est-il important ?

MGIE représente une avancée significative dans l'édition d'images basée sur des instructions, un domaine essentiel pour améliorer la créativité tant humaine qu'IA. Il illustre les possibilités d'utilisation des MLLM dans l'édition d'images, facilitant de nouvelles interactions intermodales.

Au-delà de son importance en recherche, MGIE constitue un outil pratique pour diverses applications, aidant les utilisateurs à créer et optimiser des images pour des contextes personnels et professionnels, tels que les réseaux sociaux, le commerce électronique et les arts créatifs. Il permet aux utilisateurs d'exprimer visuellement leurs idées et encourage l'exploration créative.

Pour Apple, MGIE renforce le leadership croissant de l'entreprise en recherche et développement en IA, mettant en avant ses capacités en apprentissage automatique axées sur l'amélioration des tâches créatives quotidiennes. Bien que MGIE soit une réalisation notable, les experts reconnaissent la nécessité continue d'avancées dans les systèmes d'IA multimodaux. Néanmoins, les progrès rapides dans ce domaine indiquent que les IA d'assistance comme MGIE pourraient bientôt devenir des outils essentiels pour la créativité.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles