Google DeepMind presenta ‘Gecko’: Un nuevo estándar integral para evaluar generadores de imágenes de IA.

Recientemente, es posible que hayas visto impresionantes imágenes generadas por IA, como un astronauta montando un caballo o un aguacate en la silla de un terapeuta. Estas visuales cautivadoras provienen de modelos de IA diseñados para convertir indicaciones de texto en imágenes. Pero, ¿realmente estos sistemas comprenden nuestras solicitudes como sugieren los ejemplos impresionantes?

Un estudio reciente de Google DeepMind revela las limitaciones ocultas en los métodos actuales de evaluación para modelos de IA de texto a imagen. Su investigación, publicada en el servidor de preprints arXiv, presenta un nuevo enfoque llamado “Gecko”, que busca proporcionar un estándar de referencia más completo y confiable para esta tecnología en evolución.

Según el equipo de DeepMind en su documento "Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings", “aunque los modelos generativos de texto a imagen se han vuelto omnipresentes, no necesariamente generan imágenes que se alineen con una indicación dada.” Subrayan que los conjuntos de datos existentes y las métricas automáticas utilizadas para evaluar modelos como DALL-E, Midjourney y Stable Diffusion a menudo no capturan el panorama completo. Las evaluaciones humanas limitadas y las métricas automatizadas pueden pasar por alto matices esenciales y llevar a discrepancias con los juicios humanos.

Presentando a Gecko: Un Nuevo Estándar para Modelos de Texto a Imagen

Para abordar estos problemas, los investigadores desarrollaron Gecko, un conjunto de referencias que eleva significativamente los estándares de evaluación para los modelos de texto a imagen. Gecko desafía a los modelos con 2,000 indicaciones de texto diversas que exploran múltiples habilidades y niveles de complejidad. Al desglosar las indicaciones en sub-habilidades específicas, Gecko ayuda a descubrir debilidades precisas en los modelos.

“Este estándar basado en habilidades categoriza las indicaciones en sub-habilidades, permitiendo a los profesionales identificar qué habilidades son desafiantes y en qué nivel de complejidad,” explica la coautora principal Olivia Wiles.

El marco Gecko mejora la evaluación de la IA de texto a imagen al integrar (a) un conjunto de datos de referencia basado en habilidades, (b) extensas anotaciones humanas en diversas plantillas, (c) una métrica de evaluación automática mejorada, y (d) información sobre el rendimiento del modelo en una variedad de criterios. Este estudio busca facilitar una comparación más precisa y robusta de los sistemas de IA populares.

Una Imagen Más Precisa de las Capacidades de la IA

Los investigadores también recopilaron más de 100,000 calificaciones humanas sobre imágenes generadas por varios modelos líderes en respuesta a las indicaciones de Gecko. Este extenso volumen de retroalimentación permite al estándar identificar si las brechas de rendimiento se deben a limitaciones reales del modelo, indicaciones ambiguas o métodos de evaluación inconsistentes.

“Recopilamos calificaciones humanas a través de cuatro plantillas y cuatro modelos de texto a imagen, con un total de más de 100,000 anotaciones,” revela el estudio. “Esto nos permite diferenciar entre la ambigüedad en la indicación y las diferencias relacionadas con la calidad de la métrica y del modelo.”

Gecko también incluye una métrica de evaluación automática mejorada basada en preguntas y respuestas, que se alinea más estrechamente con los juicios humanos que las métricas existentes. Al evaluar modelos de última generación con el nuevo estándar, esta combinación reveló diferencias previamente no detectadas en sus fortalezas y debilidades.

“Presentamos una nueva métrica de autoevaluación basada en preguntas y respuestas que correlaciona mejor con las calificaciones humanas que las métricas existentes en diferentes plantillas humanas y en TIFA160,” afirma el documento. Notablemente, el modelo Muse de DeepMind destacó durante la evaluación de Gecko.

Los investigadores buscan resaltar la importancia de emplear estándares diversos y métodos de evaluación para comprender verdaderamente lo que la IA de texto a imagen puede y no puede hacer antes de su implementación en el mundo real. Planean hacer público el código y los datos de Gecko para fomentar avances adicionales en el campo.

“Nuestro trabajo demuestra que la elección del conjunto de datos y la métrica afecta en gran medida el rendimiento percibido,” concluye Wiles. “Esperamos que Gecko permita comparaciones y diagnósticos más precisos de las capacidades de los modelos en el futuro.”

Así que, mientras esa imagen impactante generada por IA puede impresionar a primera vista, es esencial una evaluación exhaustiva para distinguir la calidad genuina de las meras ilusiones. Gecko proporciona un mapa para lograr esa claridad.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles