Você pode ter visto algumas imagens geradas por IA impressionantes recentemente, como um astronauta montando um cavalo ou um abacate em uma cadeira de terapia. Essas visuais cativantes resultam de modelos de IA projetados para converter prompts de texto em imagens. Mas será que esses sistemas realmente compreendem nossos pedidos da maneira que os exemplos sugerem?
Um estudo recente do Google DeepMind revela limitações ocultas nos métodos de avaliação atuais para modelos de IA de texto para imagem. A pesquisa, publicada no servidor de pré-print arXiv, apresenta uma nova abordagem chamada “Gecko”, que visa fornecer um marco de avaliação mais abrangente e confiável para essa tecnologia em evolução.
Segundo a equipe do DeepMind em seu artigo, "Revisiting Text-to-Image Evaluation with Gecko: On Metrics, Prompts, and Human Ratings", “embora os modelos generativos de texto para imagem tenham se tornado onipresentes, eles não necessariamente geram imagens que correspondem a um prompt específico.” Eles enfatizam que os conjuntos de dados existentes e as métricas automáticas utilizadas para avaliar modelos como DALL-E, Midjourney e Stable Diffusion frequentemente deixam de capturar a totalidade da questão. Avaliações humanas limitadas e métricas automatizadas podem ignorar nuances essenciais e causar divergências com os julgamentos humanos.
Apresentando Gecko: Um Novo Marco para Modelos de Texto para Imagem
Para resolver essas questões, os pesquisadores desenvolveram o Gecko—um conjunto de padrões que eleva significativamente os critérios de avaliação para modelos de texto para imagem. O Gecko desafia os modelos com 2.000 prompts de texto diversos que exploram múltiplas habilidades e níveis de complexidade. Ao dividir prompts em sub-habilidades específicas, o Gecko ajuda a revelar fraquezas precisas nos modelos.
“Esse marco baseado em habilidades categoriza os prompts em sub-habilidades, permitindo que os profissionais identifiquem quais habilidades são desafiadoras e em que nível de complexidade,” explica a coautora principal, Olivia Wiles.
A estrutura do Gecko melhora a avaliação da IA de texto para imagem ao integrar (a) um conjunto de dados abrangente baseado em habilidades, (b) anotações humanas extensivas em vários templates, (c) uma métrica de avaliação automática aprimorada, e (d) insights sobre o desempenho do modelo em uma variedade de critérios. Este estudo visa facilitar uma comparação mais precisa e robusta dos sistemas de IA populares.
Uma Imagem Mais Precisa das Capacidades da IA
Os pesquisadores também coletaram mais de 100.000 avaliações humanas sobre imagens geradas por vários modelos líderes em resposta aos prompts do Gecko. Esse volume extenso de feedback permite ao marco identificar se as lacunas de desempenho resultam de limitações reais do modelo, prompts ambíguos ou métodos de avaliação inconsistentes.
“Coletamos avaliações humanas em quatro templates e quatro modelos de texto para imagem, totalizando mais de 100.000 anotações,” revela o estudo. “Isso nos permite diferenciar entre ambiguidade no prompt e diferenças relacionadas à qualidade da métrica e do modelo.”
O Gecko também apresenta uma métrica de avaliação automática aprimorada baseada em questionamento e resposta, alinhando-se mais estreitamente aos julgamentos humanos do que as métricas existentes. Ao avaliar modelos de alto desempenho com o novo marco, essa combinação revelou diferenças previamente não detectadas em suas forças e fraquezas.
“Introduzimos uma nova métrica de autoavaliação baseada em QA que se correlaciona melhor com as avaliações humanas do que as métricas existentes em diferentes templates humanos e no TIFA160,” afirma o artigo. Notavelmente, o modelo Muse da DeepMind se destacou durante a análise do Gecko.
Os pesquisadores pretendem destacar a importância de empregar marcos e métodos de avaliação diversos para compreender verdadeiramente o que a IA de texto para imagem pode e não pode fazer antes de sua implementação no mundo real. Eles planejam disponibilizar o código e os dados do Gecko publicamente para fomentar novos avanços na área.
“Nosso trabalho mostra que a escolha do conjunto de dados e da métrica afeta muito a performance percebida,” conclui Wiles. “Esperamos que o Gecko possibilite comparações mais precisas e diagnósticos das capacidades dos modelos no futuro.”
Portanto, enquanto aquela imagem gerada por IA pode impressionar à primeira vista, testes rigorosos são essenciais para distinguir a qualidade genuína de meras ilusões. O Gecko fornece um caminho para alcançar essa clareza.