O Impressionante Novo Criador de Vídeos Multimodal da Google: Conheça o VideoPoet!

Ontem, fiquei pensando se o Google conseguiria lançar um produto de IA com sucesso em sua primeira tentativa. Com a apresentação do VideoPoet, parece que temos nossa resposta.

Esta semana, o Google apresentou o VideoPoet, um modelo de linguagem de última geração (LLM) desenvolvido por uma equipe de 31 pesquisadores do Google Research, destinado a diversas tarefas de geração de vídeo. O desenvolvimento deste LLM é especialmente notável. De acordo com um artigo de pré-revisão da equipe, “a maioria dos modelos existentes utiliza métodos baseados em difusão, amplamente reconhecidos como os melhores em geração de vídeo. Normalmente, esses modelos começam com um modelo de imagem pré-treinado, como o Stable Diffusion, para criar imagens de alta fidelidade para quadros individuais e, em seguida, são ajustados para melhorar a consistência temporal entre os quadros.”

Em contraste, a equipe de pesquisa do Google optou por um LLM baseado na arquitetura de transformadores, comumente usada para geração de texto e código (por exemplo, ChatGPT, Claude 2, Llama 2). No entanto, o VideoPoet foi especificamente treinado para criação de vídeos.

A Importância do Pré-treinamento

O sucesso do VideoPoet advém de um extenso pré-treinamento em 270 milhões de vídeos e mais de 1 bilhão de pares de texto-imagem, provenientes da internet pública e de outras fontes. Esses dados foram transformados em embeddings de texto, tokens visuais e tokens de áudio que o modelo pode utilizar.

Os resultados são impressionantes, especialmente quando comparados a ferramentas avançadas de geração de vídeo voltadas para o consumidor, como Runway e Pika, esta última sendo um investimento do Google.

Clipes Mais Longos e de Maior Qualidade com Movimento Aprimorado

O Google Research afirma que a abordagem baseada em LLM permite a criação de clipes mais longos e de alta qualidade, superando as limitações atuais enfrentadas pelas IAs de geração de vídeo baseadas em difusão, que frequentemente lutam para manter um movimento coerente em sequências mais longas. Como ressaltaram os membros da equipe Dan Kondratyuk e David Ross em um post no blog do Google Research, “um dos gargalos atuais na geração de vídeo é a capacidade de produzir grandes movimentos coerentes. Muitos modelos líderes geram pequenos movimentos ou produzem artefatos visíveis ao tentar movimentos maiores.”

O VideoPoet, por outro lado, pode fornecer movimentos maiores e mais consistentes em vídeos de até 16 quadros. Ele também oferece uma gama diversificada de funcionalidades desde o início, como simulação de vários movimentos de câmera, estilos visuais e até geração de novos áudios para complementar o conteúdo visual. Importante notar que ele processa múltiplos tipos de entrada—texto, imagens e vídeos—como prompts.

Ao consolidar essas funcionalidades de geração de vídeo em um único LLM, o VideoPoet elimina a necessidade de várias ferramentas especializadas, oferecendo uma solução coesa e completa para a criação de vídeos.

Na verdade, uma pesquisa realizada pela equipe do Google Research descobriu que os espectadores preferiam os clipes gerados pelo VideoPoet. Quando avaliados lado a lado com modelos de difusão como Source-1, VideoCrafter e Phenaki, os vídeos do VideoPoet foram consistentemente favorecidos. Segundo o blog do Google Research, “em média, os avaliadores escolheram 24–35% dos exemplos do VideoPoet como mais alinhados com os prompts do que os modelos concorrentes, em comparação com apenas 8–11% para outros. Além disso, 41–54% dos exemplos do VideoPoet foram considerados como tendo um movimento mais interessante do que 11–21% dos outros modelos.”

Projetado para Vídeo Vertical

O Google Research personalizou o VideoPoet para gerar vídeos em orientação retrato (vertical) por padrão, atraindo o público de vídeos móveis popularizados por plataformas como Snapchat e TikTok.

De olho no futuro, o Google Research pretende expandir a funcionalidade do VideoPoet para suportar tarefas de geração “de qualquer para qualquer”, incluindo de texto para áudio e de áudio para vídeo, avançando ainda mais no potencial de geração de vídeo e áudio.

Atualmente, o VideoPoet não está disponível para uso público e estamos aguardando informações do Google sobre seu lançamento. Até lá, a expectativa cresce enquanto aguardamos para ver como ele se compara a outras ferramentas no mercado.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles