Google Lança Veo: Um Impressionante Novo Modelo de Vídeo de IA Generativa para Concorrer com o Sora da OpenAI

Desde que a OpenAI introduziu seu modelo de criação de vídeos com IA generativa, Sora, no início deste ano, poucos concorrentes conseguiram igualar seu realismo e qualidade—até agora.

Durante sua conferência anual de desenvolvedores I/O, o Google anunciou o Veo, um novo modelo de vídeo gerado por IA desenvolvido pela renomada divisão DeepMind. O Google descreve o Veo como capaz de gerar "clipes em alta qualidade, 1080p, com mais de 60 segundos". Segundo uma postagem na conta do DeepMind no X, o modelo abrange uma variedade de estilos cinematográficos, desde fotorealismo e surrealismo até animação.

Na página do produto, o Google afirma que o Veo visa “tornar a produção de vídeos acessível a todos”, seja para cineastas experientes, criadores aspirantes ou educadores. O Veo suporta transformações de texto para vídeo, vídeo para vídeo e imagem para vídeo.

Em parceria com o polímata artista Donald Glover, conhecido como Childish Gambino, o Google testou as novas funcionalidades do Veo em seu estúdio criativo, Gilga.

Demonstrando as impressionantes capacidades do Veo, a DeepMind exibiu diversos vídeos gerados em suas contas no YouTube e no X, com cenas como uma cidade neon, águas-vivas realistas, cowboys montando a cavalo, espaçonaves explorando o cosmos e interações humanas. Os resultados imitam de perto a ação ao vivo e animações elaboradas, todos criados a partir de simples comandos de texto.

Em uma postagem no blog do vice-presidente do Google, Eli Collins, e do diretor de pesquisa sênior, Douglas Eck, o Veo é destacado pelo seu “nível sem precedentes de controle criativo”, com uma forte compreensão de termos cinematográficos como “time-lapse” e “planos aéreos”.

Além disso, o Veo facilita edições rápidas, de alta qualidade, em vídeos gerados por IA e vídeos enviados pelos usuários, incluindo filmagens pré-gravadas. Por exemplo, os usuários podem inserir um comando de edição, como adicionar caiaques a uma tomada aérea da costa, e o Veo pode implementar isso perfeitamente no vídeo original.

O Veo também se destaca em manter a consistência entre os quadros do vídeo, resolvendo inconsistências comumente encontradas em outros modelos, como o Sora. Ele alcança isso através de avançados transformadores de difusão latente, garantindo que personagens e objetos permaneçam coesos e realistas.

Para aprimorar seu desempenho, o Google melhorou as legendas dos dados de treinamento e utilizou representações de vídeo comprimidos de alta qualidade. Essa otimização eleva a qualidade geral do vídeo e reduz o tempo de geração.

Todos os vídeos gerados pelo Veo são marcados com SynthID, a marca d'água de certificação de conteúdo do Google, confirmando seu status de gerados por IA.

O Veo representa anos de pesquisa da DeepMind, construindo inovações anteriores como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere.

Atualmente, o Veo não está disponível publicamente. Seguindo o modelo da OpenAI com o Sora, ele está acessível a criadores selecionados por meio de uma pré-visualização privada no VideoFX. O Google planeja eventualmente integrar algumas funcionalidades do Veo no YouTube Shorts e em outros produtos.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles