Google DeepMind présente 'Gecko' : un nouveau standard complet pour évaluer les générateurs d'images IA.

Vous avez peut-être récemment découvert des images générées par l'IA qui captivent, comme un astronaute chevauchant un cheval ou un avocat assis sur une chaise de thérapeute. Ces visuels fascinants proviennent de modèles d'IA conçus pour transformer des prompts textuels en images. Mais ces systèmes comprennent-ils réellement nos demandes comme le laissent supposer ces exemples impressionnants ?

Une étude récente de Google DeepMind révèle les limites cachées des méthodes d'évaluation actuelles des modèles d'IA générant des images à partir de texte. Leur recherche, publiée sur le serveur de préimpression arXiv, introduit une nouvelle approche appelée "Gecko", qui vise à fournir un cadre d'évaluation plus complet et fiable pour cette technologie en évolution.

Selon l'équipe de DeepMind dans leur article "Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings", "bien que les modèles génératifs d'images à partir de texte soient devenus omniprésents, ils ne produisent pas nécessairement des images qui correspondent à un prompt donné." Ils soulignent que les ensembles de données existants et les métriques automatiques utilisés pour évaluer des modèles comme DALL-E, Midjourney et Stable Diffusion échouent souvent à saisir l'ensemble du tableau. Des évaluations humaines limitées et des métriques automatisées peuvent passer à côté de nuances essentielles et provoquer des désaccords avec les jugements humains.

Introduction de Gecko : un nouvel étalon pour les modèles texte-image

Pour remédier à ces problèmes, les chercheurs ont développé Gecko — une suite de référence élevée qui améliore les normes d'évaluation des modèles texte-image. Gecko met au défi les modèles avec 2 000 prompts textuels diversifiés qui explorent plusieurs compétences et niveaux de complexité. En décomposant les prompts en sous-compétences spécifiques, Gecko aide à révéler les faiblesses précises des modèles.

"Ce référentiel basé sur les compétences catégorise les prompts en sous-compétences, permettant ainsi aux praticiens d'identifier les compétences difficiles et à quel niveau de complexité," explique Olivia Wiles, co-auteure principale.

Le cadre Gecko améliore l'évaluation de l'IA texte-image en intégrant (a) un ensemble de données de référence complet basé sur les compétences, (b) d'annotations humaines étendues sur divers modèles, (c) une métrique d'évaluation automatique améliorée, et (d) des informations sur la performance des modèles selon divers critères. Cette étude vise à faciliter des évaluations plus précises et robustes des systèmes d'IA populaires.

Une vision plus précise des capacités de l'IA

Les chercheurs ont également recueilli plus de 100 000 évaluations humaines sur des images générées par plusieurs modèles de premier plan en réponse aux prompts Gecko. Ce volume important de retours permet au référentiel d'identifier si les écarts de performance proviennent de véritables limitations des modèles, de prompts ambigus, ou de méthodes d'évaluation inconsistantes.

"Nous collectons des évaluations humaines à travers quatre modèles et quatre modèles texte-image pour un total de plus de 100 000 annotations," révèle l'étude. "Cela nous permet de différencier l'ambiguïté dans le prompt et les différences liées à la qualité de la métrique et du modèle."

Gecko présente également une métrique d'évaluation automatique améliorée basée sur le question-réponse, s'alignant plus étroitement avec les jugements humains que les métriques existantes. Lors de l'évaluation des modèles à la pointe de la technologie avec cette nouvelle référence, cette combinaison a mis au jour des différences auparavant non détectées dans leurs forces et faiblesses.

"Nous introduisons une nouvelle métrique d'auto-évaluation basée sur QA qui corrèle mieux avec les évaluations humaines que les métriques existantes à travers différents modèles humains et sur TIFA160," déclare l'article. Notamment, le modèle Muse de DeepMind a excellé lors de l'examen Gecko.

Les chercheurs visent à souligner l'importance d'employer des références et des méthodes d'évaluation variées pour comprendre ce que l'IA texte-image peut et ne peut pas faire avant son déploiement dans le monde réel. Ils prévoient de rendre le code et les données de Gecko publics pour favoriser d'autres avancées dans ce domaine.

"Notre travail montre que le choix de l'ensemble de données et de la métrique influence considérablement la performance perçue," conclut Wiles. "Nous espérons que Gecko permettra une évaluation et un diagnostic plus précis des capacités des modèles à l'avenir."

Ainsi, bien que cette image générée par l'IA puisse impressionner au premier coup d'œil, des tests approfondis sont essentiels pour distinguer la véritable qualité des simples illusions. Gecko fournit une feuille de route pour atteindre cette clarté.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles