O Impressionante Novo Criador de Vídeos Multimodal da Google: Conheça o VideoPoet!

Home Notícias de IA O Impressionante Novo Criador de Vídeos Multimodal da Google: Conheça o VideoPoet!

Updated on dezembro 20 2023

Ontem, fiquei pensando se o Google conseguiria lançar um produto de IA com sucesso em sua primeira tentativa. Com a apresentação do VideoPoet, parece que temos nossa resposta.

Esta semana, o Google apresentou o VideoPoet, um modelo de linguagem de última geração (LLM) desenvolvido por uma equipe de 31 pesquisadores do Google Research, destinado a diversas tarefas de geração de vídeo. O desenvolvimento deste LLM é especialmente notável. De acordo com um artigo de pré-revisão da equipe, “a maioria dos modelos existentes utiliza métodos baseados em difusão, amplamente reconhecidos como os melhores em geração de vídeo. Normalmente, esses modelos começam com um modelo de imagem pré-treinado, como o Stable Diffusion, para criar imagens de alta fidelidade para quadros individuais e, em seguida, são ajustados para melhorar a consistência temporal entre os quadros.”

Em contraste, a equipe de pesquisa do Google optou por um LLM baseado na arquitetura de transformadores, comumente usada para geração de texto e código (por exemplo, ChatGPT, Claude 2, Llama 2). No entanto, o VideoPoet foi especificamente treinado para criação de vídeos.

A Importância do Pré-treinamento

O sucesso do VideoPoet advém de um extenso pré-treinamento em 270 milhões de vídeos e mais de 1 bilhão de pares de texto-imagem, provenientes da internet pública e de outras fontes. Esses dados foram transformados em embeddings de texto, tokens visuais e tokens de áudio que o modelo pode utilizar.

Os resultados são impressionantes, especialmente quando comparados a ferramentas avançadas de geração de vídeo voltadas para o consumidor, como Runway e Pika, esta última sendo um investimento do Google.

Clipes Mais Longos e de Maior Qualidade com Movimento Aprimorado

O Google Research afirma que a abordagem baseada em LLM permite a criação de clipes mais longos e de alta qualidade, superando as limitações atuais enfrentadas pelas IAs de geração de vídeo baseadas em difusão, que frequentemente lutam para manter um movimento coerente em sequências mais longas. Como ressaltaram os membros da equipe Dan Kondratyuk e David Ross em um post no blog do Google Research, “um dos gargalos atuais na geração de vídeo é a capacidade de produzir grandes movimentos coerentes. Muitos modelos líderes geram pequenos movimentos ou produzem artefatos visíveis ao tentar movimentos maiores.”

O VideoPoet, por outro lado, pode fornecer movimentos maiores e mais consistentes em vídeos de até 16 quadros. Ele também oferece uma gama diversificada de funcionalidades desde o início, como simulação de vários movimentos de câmera, estilos visuais e até geração de novos áudios para complementar o conteúdo visual. Importante notar que ele processa múltiplos tipos de entrada—texto, imagens e vídeos—como prompts.

Ao consolidar essas funcionalidades de geração de vídeo em um único LLM, o VideoPoet elimina a necessidade de várias ferramentas especializadas, oferecendo uma solução coesa e completa para a criação de vídeos.

Na verdade, uma pesquisa realizada pela equipe do Google Research descobriu que os espectadores preferiam os clipes gerados pelo VideoPoet. Quando avaliados lado a lado com modelos de difusão como Source-1, VideoCrafter e Phenaki, os vídeos do VideoPoet foram consistentemente favorecidos. Segundo o blog do Google Research, “em média, os avaliadores escolheram 24–35% dos exemplos do VideoPoet como mais alinhados com os prompts do que os modelos concorrentes, em comparação com apenas 8–11% para outros. Além disso, 41–54% dos exemplos do VideoPoet foram considerados como tendo um movimento mais interessante do que 11–21% dos outros modelos.”

Projetado para Vídeo Vertical

O Google Research personalizou o VideoPoet para gerar vídeos em orientação retrato (vertical) por padrão, atraindo o público de vídeos móveis popularizados por plataformas como Snapchat e TikTok.

De olho no futuro, o Google Research pretende expandir a funcionalidade do VideoPoet para suportar tarefas de geração “de qualquer para qualquer”, incluindo de texto para áudio e de áudio para vídeo, avançando ainda mais no potencial de geração de vídeo e áudio.

Atualmente, o VideoPoet não está disponível para uso público e estamos aguardando informações do Google sobre seu lançamento. Até lá, a expectativa cresce enquanto aguardamos para ver como ele se compara a outras ferramentas no mercado.

Descubra o Midjourney V6: Novos Recursos Avançados de Prompting e Texto em Imagem Revelados!

Descubra Como a Última Pesquisa de IA da Apple Pode Revolucionar a Sua Experiência com o iPhone

Most people like

Lyne.ai

7.2K

Transforme sua estratégia de vendas com personalização em grande escala, impulsionada por A.I. Aproveite a inteligência artificial avançada para adaptar seu contato e aumentar o envolvimento do cliente, garantindo que cada interação ressoe e impulsione conversões. Descubra como soluções de A.I. escaláveis podem revolucionar sua abordagem de vendas e gerar resultados mensuráveis.

I.A. AI Email Assistant

CraftWriter

247.6K

Desperte seu potencial de escrita com o CraftWriter! Transforme suas habilidades e expresse sua criatividade de forma mais eficaz do que nunca. Mergulhe em nossos recursos e eleve sua jornada de escrita hoje mesmo!

ferramenta de escrita General Writing

Stratup.ai

35.2K

A Stratup.ai aproveita o poder da inteligência artificial para gerar rapidamente ideias inovadoras de startups em apenas alguns segundos.

IA AI Business Ideas Generator

AIPaperPass

61.9K

Eleve sua escrita com orientação aprimorada por IA. Descubra como a inteligência artificial pode facilitar seu processo de escrita, oferecendo feedback e sugestões personalizadas para melhorar a clareza, a coerência e o engajamento. Seja você um estudante elaborando um ensaio ou um profissional preparando um relatório, nossas ferramentas de IA são projetadas para apoiá-lo em cada etapa. Experimente o futuro da assistência na escrita hoje!

Redação de artigos com IA Writing Assistants

Find AI tools in YBX