As empresas de IA estão em uma intensa competição para avançar na tecnologia de geração de vídeos. Nos últimos meses, players importantes como Stability AI e Pika Labs lançaram modelos que criam vídeos a partir de prompts de texto e imagem. Construindo sobre esses avanços, a Microsoft introduziu um novo modelo chamado DragNUWA, projetado para oferecer maior controle na produção de vídeos.
O DragNUWA aprimora os métodos tradicionais de entrada de texto e imagem, incorporando a geração baseada em trajetórias, permitindo que os usuários manipulem objetos ou quadros de vídeo inteiros ao longo de caminhos específicos. Essa inovação facilita o controle preciso sobre aspectos semânticos, espaciais e temporais da criação de vídeos, garantindo resultados de alta qualidade.
A Microsoft disponibilizou os pesos e a demonstração do modelo, convidando a comunidade a experimentar. Contudo, é importante reconhecer que isso ainda é uma iniciativa de pesquisa e não está totalmente refinada.
O Que Torna o Microsoft DragNUWA Único?
A geração de vídeos impulsionada por IA geralmente se baseia em entradas de texto, imagem ou trajetória, mas esses métodos frequentemente enfrentam dificuldades em oferecer controle detalhado. Por exemplo, confiar apenas em texto e imagens pode deixar de lado os sutis detalhes de movimento essenciais para o vídeo, e a linguagem por si só pode gerar ambiguidades em conceitos abstratos.
Em agosto de 2023, a equipe de IA da Microsoft apresentou o DragNUWA, um modelo de geração de vídeo baseado em difusão de domínio aberto que integra entradas de imagens, texto e trajetórias para permitir um controle preciso do vídeo. Os usuários podem definir textos específicos, imagens e trajetórias para gerenciar diversos elementos, como movimentos de câmera e movimentação de objetos no vídeo resultante.
Por exemplo, é possível fazer upload de uma imagem de um barco na água, combiná-la com o prompt de texto "um barco navegando no lago" e fornecer direções para o movimento do barco. Essa entrada gera um vídeo do barco se movimentando conforme especificado, com a trajetória esclarecendo detalhes de movimento, a linguagem delineando objetos futuros e as imagens distinguindo entre os assuntos.
DragNUWA em Ação
A versão inicial 1.5 do DragNUWA foi recentemente lançada no Hugging Face, aproveitando o modelo Stable Video Diffusion da Stability AI para animar imagens com base em caminhos definidos. À medida que essa tecnologia evolui, promete simplificar a geração e edição de vídeos. Imagine transformar fundos, animar imagens e dirigir movimentos com uma linha simples.
Entusiastas de IA estão empolgados com esse progresso, considerando-o um passo significativo na IA criativa. No entanto, o desempenho do modelo no mundo real ainda precisa ser avaliado. Testes preliminares indicam que o DragNUWA pode executar com precisão movimentos de câmera e movimentações de objetos ao longo de várias trajetórias de arrasto.
“O DragNUWA suporta trajetórias curvas complexas, permitindo que objetos se movam por caminhos intricados. Ele também comporta comprimentos variáveis de trajetória, possibilitando amplitudes maiores de movimento. Além disso, o DragNUWA pode controlar as trajetórias de múltiplos objetos simultaneamente. Até onde sabemos, nenhum outro modelo de geração de vídeo alcançou um controle de trajetória tão avançado, ressaltando o potencial do DragNUWA para avançar a tecnologia de geração de vídeos,” afirmaram os pesquisadores da Microsoft em seu artigo.
Este trabalho contribui para o campo em constante expansão da pesquisa em vídeos de IA. Recentemente, a Pika Labs ganhou destaque com sua interface de texto para vídeo, semelhante ao ChatGPT, que gera vídeos curtos de alta qualidade com diversas opções de personalização.