Apresentamos o Pyramid Flow: o novo gerador de vídeos em alta qualidade com inteligência artificial, agora disponível como código totalmente aberto!

O cenário da geração de vídeos por IA continua a se expandir com o lançamento do Pyramid Flow nesta semana. Este modelo open-source produz clipes de vídeo de alta qualidade de até 10 segundos em velocidades impressionantes.

Desenvolvido por uma equipe colaborativa da Universidade de Pequim, da Universidade de Comunicações de Pequim e da Kuaishou Technology (conhecida pelo aclamado gerador de vídeos Kling AI), o Pyramid Flow adota uma abordagem inovadora. Ele gera vídeos em múltiplas etapas, inicialmente em baixas resoluções, reservando uma versão em alta resolução para a saída final.

Com a capacidade de criar um vídeo de 5 segundos em 384p em apenas 56 segundos, o desempenho do Pyramid Flow compete com modelos líderes. No entanto, o Runway's Gen 3 Alpha Turbo ainda detém o título de velocidade, frequentemente produzindo vídeos em menos de um minuto, com alguns testes levando entre 10 a 20 segundos.

Embora não tenhamos testado o Pyramid Flow pessoalmente, os vídeos de demonstração compartilhados pelos criadores exibem visuais notavelmente realistas e resolução comparável a sistemas proprietários. Você pode ver exemplos na página do projeto no GitHub.

O Pyramid Flow é projetado para fácil download e uso, incluindo aplicações comerciais, posicionando-se como uma alternativa robusta a concorrentes pagos, como o Runway’s Gen-3 Alpha, Luma’s Dream Machine, Kling e Haulio, que podem ter taxas anuais substanciais para assinaturas ilimitadas.

No competitivo setor de provedores de vídeos por IA, o Pyramid Flow promete eficiência e flexibilidade para desenvolvedores, artistas e criadores de conteúdo em busca de soluções avançadas de geração de vídeos.

Uma Nova Técnica: Correspondência de Fluxo Piramidal

A geração de vídeo por IA requer recursos computacionais significativos, muitas vezes necessitando de múltiplos modelos para diferentes etapas, o que pode complicar o treinamento. O Pyramid Flow introduz a correspondência de fluxo piramidal, uma técnica que reduz substancialmente a carga computacional enquanto preserva a qualidade visual. Este método completa a geração de vídeo através de uma "pirâmide" sistemática de etapas, utilizando alta resolução apenas no passo final.

Essa metodologia é detalhada em um artigo pré-revisado intitulado "Correspondência de Fluxo Piramidal para Modelagem Generativa de Vídeos Eficiente", submetido ao jornal de acesso aberto arXiv em 8 de outubro de 2024. A equipe de pesquisa é composta por Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu e outros, a maioria afiliados à Universidade de Pequim e à Kuaishou Technology.

O artigo descreve como a otimização da geração de vídeos em diferentes etapas facilita uma convergência de treinamento mais rápida, permitindo que o Pyramid Flow gere mais amostras com menos processamento. Especificamente, ele reduz a contagem de tokens em um fator de quatro em comparação com modelos de difusão tradicionais, melhorando a eficiência do treinamento.

O modelo pode produzir vídeos de 5 a 10 segundos em 768p de resolução e 24 quadros por segundo, treinado em conjuntos de dados open-source, incluindo LAION-5B, CC-12M, SA-1B, WebVid-10M e OpenVid-1M, totalizando aproximadamente 10 milhões de vídeos de disparo único.

No entanto, persistem preocupações quanto à origem desses conjuntos de dados, com alguns, como o LAION-5B, enfrentando acusações de hospedar material protegido por direitos autorais sem consentimento. O Runway também está lidando com questões legais, sendo processado por artistas devido a práticas semelhantes relacionadas a violações de direitos autorais.

Open Source e Uso Comercial

O Pyramid Flow é lançado sob a Licença MIT, permitindo amplo uso, incluindo empreendimentos comerciais, modificações e redistribuição, desde que o aviso de copyright seja mantido. Isso o torna uma escolha atraente para desenvolvedores e empresas que buscam integrar capacidades de vídeo por IA sem arcar com os custos associados a modelos proprietários.

No entanto, embora o Pyramid Flow seja uma ferramenta promissora, atualmente falta algumas das funcionalidades avançadas disponíveis em modelos proprietários. Por exemplo, o Runway’s Gen-3 Alpha oferece controle detalhado sobre elementos como ângulos de câmera e gestos humanos que o Pyramid Flow ainda não conseguiu replicar. Além disso, sua introdução relativamente recente significa que seu ecossistema não é tão desenvolvido quanto o de alguns concorrentes.

O Futuro da Geração de Vídeos por IA

À medida que o mercado de geração de vídeos por IA evolui, o surgimento do Pyramid Flow representa uma mudança em direção a alternativas open-source mais acessíveis capazes de competir com soluções proprietárias estabelecidas. Oferecendo qualidade de vídeo impressionante sem as restrições dos modelos tradicionais, o Pyramid Flow está pronto para se tornar uma ferramenta preferida entre criadores e desenvolvedores.

Olhos voltados para o futuro, os stakeholders da indústria acompanharão de perto a trajetória e as melhorias potenciais do Pyramid Flow, enquanto todos os players competem por domínio tecnológico e aquisição de usuários neste campo dinâmico. Enquanto isso, o Sora da OpenAI, apresentado no início de 2024, permanece em grande parte inexplorado fora de um grupo seleto de usuários iniciais.

Most people like

Find AI tools in YBX