Apresentamos o Pyramid Flow: o novo gerador de vídeos em alta qualidade com inteligência artificial, agora disponível como código totalmente aberto!

O cenário da geração de vídeos por IA continua a se expandir com o lançamento do Pyramid Flow nesta semana. Este modelo open-source produz clipes de vídeo de alta qualidade de até 10 segundos em velocidades impressionantes.

Desenvolvido por uma equipe colaborativa da Universidade de Pequim, da Universidade de Comunicações de Pequim e da Kuaishou Technology (conhecida pelo aclamado gerador de vídeos Kling AI), o Pyramid Flow adota uma abordagem inovadora. Ele gera vídeos em múltiplas etapas, inicialmente em baixas resoluções, reservando uma versão em alta resolução para a saída final.

Com a capacidade de criar um vídeo de 5 segundos em 384p em apenas 56 segundos, o desempenho do Pyramid Flow compete com modelos líderes. No entanto, o Runway's Gen 3 Alpha Turbo ainda detém o título de velocidade, frequentemente produzindo vídeos em menos de um minuto, com alguns testes levando entre 10 a 20 segundos.

Embora não tenhamos testado o Pyramid Flow pessoalmente, os vídeos de demonstração compartilhados pelos criadores exibem visuais notavelmente realistas e resolução comparável a sistemas proprietários. Você pode ver exemplos na página do projeto no GitHub.

O Pyramid Flow é projetado para fácil download e uso, incluindo aplicações comerciais, posicionando-se como uma alternativa robusta a concorrentes pagos, como o Runway’s Gen-3 Alpha, Luma’s Dream Machine, Kling e Haulio, que podem ter taxas anuais substanciais para assinaturas ilimitadas.

No competitivo setor de provedores de vídeos por IA, o Pyramid Flow promete eficiência e flexibilidade para desenvolvedores, artistas e criadores de conteúdo em busca de soluções avançadas de geração de vídeos.

Uma Nova Técnica: Correspondência de Fluxo Piramidal

A geração de vídeo por IA requer recursos computacionais significativos, muitas vezes necessitando de múltiplos modelos para diferentes etapas, o que pode complicar o treinamento. O Pyramid Flow introduz a correspondência de fluxo piramidal, uma técnica que reduz substancialmente a carga computacional enquanto preserva a qualidade visual. Este método completa a geração de vídeo através de uma "pirâmide" sistemática de etapas, utilizando alta resolução apenas no passo final.

Essa metodologia é detalhada em um artigo pré-revisado intitulado "Correspondência de Fluxo Piramidal para Modelagem Generativa de Vídeos Eficiente", submetido ao jornal de acesso aberto arXiv em 8 de outubro de 2024. A equipe de pesquisa é composta por Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu e outros, a maioria afiliados à Universidade de Pequim e à Kuaishou Technology.

O artigo descreve como a otimização da geração de vídeos em diferentes etapas facilita uma convergência de treinamento mais rápida, permitindo que o Pyramid Flow gere mais amostras com menos processamento. Especificamente, ele reduz a contagem de tokens em um fator de quatro em comparação com modelos de difusão tradicionais, melhorando a eficiência do treinamento.

O modelo pode produzir vídeos de 5 a 10 segundos em 768p de resolução e 24 quadros por segundo, treinado em conjuntos de dados open-source, incluindo LAION-5B, CC-12M, SA-1B, WebVid-10M e OpenVid-1M, totalizando aproximadamente 10 milhões de vídeos de disparo único.

No entanto, persistem preocupações quanto à origem desses conjuntos de dados, com alguns, como o LAION-5B, enfrentando acusações de hospedar material protegido por direitos autorais sem consentimento. O Runway também está lidando com questões legais, sendo processado por artistas devido a práticas semelhantes relacionadas a violações de direitos autorais.

Open Source e Uso Comercial

O Pyramid Flow é lançado sob a Licença MIT, permitindo amplo uso, incluindo empreendimentos comerciais, modificações e redistribuição, desde que o aviso de copyright seja mantido. Isso o torna uma escolha atraente para desenvolvedores e empresas que buscam integrar capacidades de vídeo por IA sem arcar com os custos associados a modelos proprietários.

No entanto, embora o Pyramid Flow seja uma ferramenta promissora, atualmente falta algumas das funcionalidades avançadas disponíveis em modelos proprietários. Por exemplo, o Runway’s Gen-3 Alpha oferece controle detalhado sobre elementos como ângulos de câmera e gestos humanos que o Pyramid Flow ainda não conseguiu replicar. Além disso, sua introdução relativamente recente significa que seu ecossistema não é tão desenvolvido quanto o de alguns concorrentes.

O Futuro da Geração de Vídeos por IA

À medida que o mercado de geração de vídeos por IA evolui, o surgimento do Pyramid Flow representa uma mudança em direção a alternativas open-source mais acessíveis capazes de competir com soluções proprietárias estabelecidas. Oferecendo qualidade de vídeo impressionante sem as restrições dos modelos tradicionais, o Pyramid Flow está pronto para se tornar uma ferramenta preferida entre criadores e desenvolvedores.

Olhos voltados para o futuro, os stakeholders da indústria acompanharão de perto a trajetória e as melhorias potenciais do Pyramid Flow, enquanto todos os players competem por domínio tecnológico e aquisição de usuários neste campo dinâmico. Enquanto isso, o Sora da OpenAI, apresentado no início de 2024, permanece em grande parte inexplorado fora de um grupo seleto de usuários iniciais.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles