Na conferência Google I/O deste ano, a Google apresentou seus mais recentes motores de criação de mídia com IA—Veo e Imagen 3. O Veo é capaz de produzir vídeos em alta qualidade 1080p, enquanto o Imagen 3 representa a mais nova estrutura para gerar imagens a partir de texto. Embora esses produtos não possam revolucionar a indústria, eles ajudam a Google a manter uma vantagem competitiva em relação ao modelo de vídeo Sora da OpenAI e ao DALL-E 3.
A Google afirma que o Veo possui uma "compreensão profunda da linguagem natural e da semântica visual", permitindo gerar vídeos com duração superior a um minuto com base nas descrições dos usuários. Ele também entende conceitos relacionados à produção cinematográfica e tecnologia visual, como a fotografia em time-lapse, que se tornaram recursos essenciais para modelos de geração de vídeo por IA.
Para demonstrar as capacidades do Veo, a Google colaborou com Donald Glover e seu estúdio criativo, Gilga, para produzir um vídeo promocional com cenas de uma viagem de conversível e navegação, ambas geradas a partir de descrições textuais. Segundo a Google, o Veo supera modelos anteriores na simulação de fenômenos físicos do mundo real e na renderização de visuais em alta definição. Glover comentou no vídeo: "Todo mundo deve ser um diretor; contar as histórias uns dos outros ampliará nossa compreensão."
Embora ainda não esteja claro se o público aceitará vídeos gerados por IA—impulsionado principalmente pela curiosidade sobre máquinas recriando a arte humana—isso não impediu a Google e a OpenAI de promoverem suas ferramentas. O Veo já está disponível na ferramenta VideoFX da Google para criadores selecionados e planeja ser lançado em plataformas como o YouTube Shorts. Após a integração no YouTube Shorts, poderá fortalecer significativamente a posição competitiva da Google em relação ao TikTok.
Quanto ao Imagen 3, a Google afirma que é o modelo "de mais alta qualidade" da empresa para gerar imagens a partir de texto, criando imagens “realistas e vívidas” enquanto minimiza artefatos. Seu verdadeiro desafio é competir com o DALL-E 3, com a Google afirmando que o Imagen 3 é mais inteligente ao lidar com texto e prompts mais longos.
Além disso, a Google formou uma parceria com os artistas musicais Wyclef Jean e Bjorn para testar sua ferramenta de sandbox de IA musical, projetada para auxiliar na criação de músicas e batidas. Embora o conteúdo exibido até agora tenha sido breve, apresentou alguns exemplos intrigantes.
De nasceres do sol à idade humana, a IA está se tornando cada vez mais inteligente. As mais recentes ferramentas de criação de mídia da Google estão seguindo nessa direção. Com bilhões investidos em IA, a Google busca liderar o próximo avanço em tecnologia computacional. O potencial futuro dessas tecnologias para melhorar vidas ou criar arte com alma permanece um assunto importante a ser observado.