O Google está prestes a lançar uma atualização impressionante para seu modelo de texto para imagem, o Imagen 3, que promete maior detalhamento, melhor compreensão da linguagem natural e renderização de texto superior. Atualmente disponível para criadores selecionados em uma prévia privada no ImageFX, os desenvolvedores podem se inscrever em uma lista de espera para acesso. Além disso, espera-se que o Imagen 3 seja integrado ao Vertex AI.
“Este é o nosso modelo de geração de imagens mais avançado até agora”, disse Douglas Eck, Diretor Sênior de Pesquisa do Google DeepMind, durante a conferência para desenvolvedores I/O da empresa. “O Imagen 3 oferece mais fotorrealismo, detalhes mais ricos e significativamente menos artefatos visuais ou distorções. Ele entende prompts de forma conversacional—quanto mais criatividade e detalhe você fornecer, melhor será o resultado. O Imagen 3 se destaca na incorporação de elementos sutis em prompts mais longos e representa o nosso melhor esforço até agora na renderização de texto, um desafio comum para modelos de geração de imagens.”
O anúncio surge apenas seis meses após o Google ter tornado o Imagen 2 amplamente disponível no Vertex AI, após o lançamento de capacidades de texto para vídeo em abril. Manter-se à frente na competitiva paisagem das ferramentas de geração de imagens por IA—como DALL-E da OpenAI, Midjourney, Firefly da Adobe, IA da Meta e Designer da Microsoft—é crucial para o Google.
No entanto, a trajetória do Google nesse domínio não foi isenta de desafios. No início deste ano, a empresa enfrentou reações negativas por suas imagens geradas por IA, que alguns críticos chamaram de “demasiado politicamente corretas”. Isso incluiu representações dos Pais Fundadores dos EUA com um homem negro e soldados alemães da Segunda Guerra Mundial ao lado de um homem negro e uma mulher asiática. O Google reconheceu o erro, com o CEO Sundar Pichai reiterando o pedido de desculpas durante uma entrevista à Bloomberg.
A revelação do Imagen 3 é uma das várias novidades empolgantes do Google I/O, que também inclui o lançamento de um novo modelo de geração de vídeo, o Veo.