O modelo avançado de texto para imagem da Google, Imagen 3, está prestes a ser lançado na plataforma Vertex AI. Esta ferramenta de IA de última geração estará disponível para clientes selecionados em prévia, proporcionando aos desenvolvedores geração de imagens mais rápida, melhor compreensão de prompts, representações de pessoas mais fotorrealistas e capacidades aprimoradas de renderização de texto em comparação com versões anteriores.
Apresentado inicialmente na Google I/O em maio, o Imagen 3 começou sua jornada com uma prévia privada no ImageFX para criadores selecionados. O anúncio da Google confirmou que este poderoso modelo de IA será em breve acessível através do Vertex AI.
Douglas Eck, diretor sênior de pesquisa na Google DeepMind, destacou suas capacidades, afirmando: “É nosso modelo de geração de imagens mais avançado até agora. O Imagen 3 é mais fotorrealista, rico em detalhes e minimiza artefatos visuais. Ele compreende prompts elaborados de maneira natural e criativa—instruções detalhadas resultam nos melhores resultados. Além disso, excela na incorporação de sutis detalhes de prompts mais longos e melhora a renderização de texto, um desafio persistente em modelos anteriores de geração de imagens.”
Com a transição para o Vertex AI, o Imagen 3 apresenta suporte a múltiplas línguas, recursos robustos de segurança, como a marca d'água digital SynthID da Google DeepMind, e suporte a várias proporções de aspecto.
A Shutterstock, líder em fotografia de banco de imagens, já integrou este modelo. Justin Hiza, vice-presidente de serviços de dados da Shutterstock, comentou: “Desde que incorporamos o Imagen em nosso gerador de imagens de IA, nossos usuários criaram milhões de imagens. Estamos entusiasmados com as melhorias que o Imagen 3 oferece, permitindo que os usuários realizem suas ideias mais rapidamente, sem comprometer a qualidade. Essa melhoria solidifica ainda mais o compromisso da Shutterstock com um gerador de imagens de IA eticamente responsável, garantindo segurança e proteção através da indenização da Google Cloud para IA generativa.”
Enquanto a Google continua a evoluir o Imagen, não divulgou quando sua Gemini AI retomará a geração de imagens após críticas sobre imprecisões. Em uma recente coletiva de imprensa, o CEO da Google Cloud, Thomas Kurian, esclareceu a diferença entre os dois modelos: “Gemini é um modelo multimodal projetado para processar diversos tipos de entradas, incluindo imagens, vídeos e áudios, possibilitando raciocínio em várias modalidades. Em contraste, o Imagen é um modelo de difusão focado estritamente na geração de saídas de alta fidelidade de texto para imagem. Eles têm propósitos distintos.”
As perguntas sobre o cronograma para reabilitar a funcionalidade de imagem da Gemini permanecem sem resposta.