A Stability AI apresenta a Prévia de Pesquisa dos Modelos de Difusão de Vídeo Estável para Aplicações Criativas.

Enquanto a OpenAI recebe de volta Sam Altman, seus concorrentes intensificam seus esforços na área de inteligência artificial (IA). Após o lançamento do Claude 2.1 da Anthropic e a aquisição da Rephrase.ai pela Adobe, a Stability AI anunciou o Stable Video Diffusion, marcando sua entrada no cada vez mais popular domínio da geração de vídeo.

Apresentando o Stable Video Diffusion

O Stable Video Diffusion (SVD), disponível apenas para pesquisa, consiste em dois modelos avançados de IA — SVD e SVD-XT — que geram clipes de vídeo curtos a partir de imagens fixas. A Stability AI afirma que esses modelos produzem saídas de alta qualidade que podem competir com ou até mesmo superar os geradores de vídeo em IA já existentes. Ambos os modelos são de código aberto como parte da prévia de pesquisa, com planos de incorporar o feedback dos usuários para aprimorar a funcionalidade para futuras aplicações comerciais.

Entendendo o Stable Video Diffusion

De acordo com o post no blog da Stability AI, SVD e SVD-XT são modelos de difusão que aceitam uma única imagem fixa para gerar clipes de vídeo de 576 x 1024 pixels. Eles podem produzir conteúdo a velocidades que variam de três a 30 quadros por segundo, embora os clipes sejam limitados a quatro segundos. O modelo SVD gera 14 quadros a partir de uma imagem fixa, enquanto o modelo SVD-XT pode criar até 25 quadros. Para desenvolver o Stable Video Diffusion, a Stability AI treinou seu modelo base com aproximadamente 600 milhões de amostras de um conjunto de dados de vídeo curado, seguido de um ajuste fino em um conjunto de dados menor e de alta qualidade, contendo até um milhão de clipes. Esse treinamento permite que os modelos realizem tarefas como geração de vídeo a partir de texto e de imagem.

Embora os dados de treinamento tenham sido obtidos de conjuntos de dados de pesquisa disponíveis publicamente, as origens exatas não foram especificadas. É importante ressaltar que o whitepaper do SVD indica que este modelo pode ser ajustado ainda mais para suportar síntese de múltiplas vistas, permitindo visões consistentes de um objeto a partir de uma única imagem. As aplicações potenciais para o Stable Video Diffusion abrangem diversos setores, incluindo publicidade, educação e entretenimento.

Qualidade da Saída e Limitações

Em avaliações externas, as saídas do SVD demonstraram alta qualidade, superando modelos fechados líderes de texto-para-vídeo da Runway e Pika Labs. No entanto, a Stability AI reconhece que esses modelos ainda estão em estágios iniciais; eles frequentemente enfrentam dificuldades com o fotorrealismo, podem produzir vídeos sem movimento e muitas vezes não geram rostos ou pessoas com a precisão esperada.

O objetivo da empresa é refinar ambos os modelos, resolver limitações atuais e introduzir novos recursos, como suporte a prompts de texto e renderização de texto para uso comercial. Eles enfatizam que este lançamento é um convite para investigação aberta, a fim de identificar e resolver problemas, incluindo possíveis vieses, para garantir uma implementação segura. A Stability AI imagina uma variedade de modelos construídos sobre essa base, semelhante ao ecossistema que envolve a difusão estável. Eles também estão convidando os usuários a se inscreverem para uma futura experiência online que permitirá a geração de vídeo a partir de texto, embora o cronograma exato de disponibilidade permaneça incerto.

Como Usar os Modelos

Para explorar os modelos do Stable Video Diffusion, os usuários podem acessar o código no repositório do GitHub da Stability AI e os pesos necessários para a execução local do modelo em sua página do Hugging Face. O uso é permitido apenas mediante aceitação dos termos que delineiam aplicações permitidas e excluídas. Atualmente, os casos de uso permitidos incluem a geração de arte para design e ferramentas educativas ou criativas. No entanto, a geração de representações factuais de pessoas ou eventos está fora do escopo deste projeto, de acordo com a Stability AI.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles