A Stability AI, conhecida por seu gerador de texto-para-imagem Stable Diffusion, lançou seu mais recente modelo básico, o Stable Video Diffusion (SVD). Este modelo já está disponível na plataforma de desenvolvedores da empresa e por meio da interface de programação de aplicativos (API), permitindo que desenvolvedores terceiros o integrem em seus aplicativos, sites e soluções de software.
"Essa nova ferramenta oferece acesso programático a um modelo de vídeo de última geração, adequado para diversos setores. Nosso objetivo é capacitar os desenvolvedores com um método eficiente para incorporar a geração avançada de vídeos em seus produtos", afirmou a empresa em um post no blog.
Embora esse lançamento ofereça uma ferramenta poderosa para empresas que desejam criar vídeos gerados por IA, também suscita preocupações. A Stability AI enfrentou recentemente críticas por utilizar o conjunto de dados LAION-5B, que continha instâncias de conteúdo inadequado e foi retirado de circulação.
Apesar desses desafios, a API SVD da Stability oferece uma vantagem competitiva em qualidade de vídeo. Segundo um post da empresa no LinkedIn, o modelo SVD pode gerar 2 segundos de vídeo, contendo 25 quadros gerados e 24 quadros de interpolação FILM, em apenas 41 segundos. Embora isso possa não ser suficiente para campanhas de vídeo extensas, é benéfico para a criação de GIFs e mensagens específicas, como memes.
O SVD compete com outros modelos de geração de vídeo da Runway e da Pika Labs, que recentemente garantiram US$ 55 milhões em financiamento e lançaram uma nova plataforma de edição de vídeo. No entanto, ao contrário da Stability AI, essas opções não estão disponíveis por meio de uma API, exigindo que os usuários acessem diretamente seus respectivos sites ou aplicativos.
Além disso, a Stability AI planeja lançar uma experiência na web voltada para o usuário para seu gerador de vídeo, incentivando os usuários a se inscreverem em uma lista de espera para acesso antecipado.
Entendendo o Stable Video Diffusion
Apresentado em uma prévia de pesquisa há um mês, o Stable Video Diffusion permite que os usuários criem vídeos MP4 a partir de imagens estáticas, como JPGs e PNGs. Amostras iniciais mostram que, embora o modelo possa produzir clipes curtos de até dois segundos, ele ainda está em estágio de desenvolvimento e oferece uma duração menor do que alguns modelos voltados para pesquisas.
No entanto, vários clipes curtos podem ser combinados para gerar vídeos mais longos. A Stability AI afirma que o modelo pode ser benéfico em setores como publicidade, marketing, TV e cinema, e jogos.
É importante ressaltar que o modelo mais recente pode gerar vídeos em múltiplos formatos e resoluções, incluindo 1024×576, 768×768 e 576×1024. Ele também apresenta controle de intensidade de movimento e geração baseada em sementes, permitindo saídas tanto repetíveis quanto aleatórias.
Navegando em Controvérsias
Enquanto o lançamento do Stable Video Diffusion fornece um meio simplificado para as empresas integrarem capacidades de vídeo, ele destaca o compromisso da Stability AI em garantir uma posição no mercado, apesar das controvérsias em curso relacionadas às suas fontes de dados de treinamento.
Recentemente, um relatório do Stanford Internet Observatory revelou que o conjunto de dados LAION-5B, utilizado para treinar modelos populares de IA, continha instâncias de material inadequado, o que levou à sua remoção. Além disso, a empresa enfrenta uma ação coletiva por suposta aquisição de imagens protegidas por direitos autorais sem permissão para a criação do Stable Diffusion.
Atualmente, a API da plataforma de desenvolvedores da Stability AI oferece acesso a todos os seus modelos, incluindo o gerador de texto-para-imagem Stable Diffusion XL e o novo modelo SVD. A empresa também oferece uma opção de associação para que clientes possam hospedar esses modelos localmente.