Présentation de Pyramid Flow : le nouvel générateur de vidéos IA de haute qualité désormais entièrement open source !

Le paysage de la génération vidéo par IA s'élargit avec le lancement de Pyramid Flow cette semaine. Ce modèle open source produit des clips vidéo de haute qualité jusqu'à 10 secondes à des vitesses impressionnantes. Développé par une équipe collaborative de l’Université de Pékin, de l’Université des Postes et Télécommunications de Pékin, et de Kuaishou Technology (réputée pour le générateur de vidéos Kling AI), Pyramid Flow adopte une approche innovante en générant des vidéos en plusieurs étapes, principalement à basse résolution, tout en réservant une version en pleine résolution pour la sortie finale.

Capable de créer une vidéo de 5 secondes en 384p en seulement 56 secondes, les performances de Pyramid Flow rivalisent avec celles des modèles de pointe. Cependant, le Gen 3 Alpha Turbo de Runway reste le leader en vitesse, produisant souvent des vidéos en moins d'une minute, avec certains tests dans une fourchette de 10 à 20 secondes.

Bien que nous n’ayons pas testé Pyramid Flow nous-mêmes, les vidéos de démonstration partagées par les créateurs mettent en avant des visuels remarquablement réalistes et une résolution comparable à celle des systèmes propriétaires. Vous pouvez voir des exemples sur sa page de projet GitHub.

Pyramid Flow est conçu pour un téléchargement et une utilisation faciles, y compris pour des applications commerciales, se positionnant comme une alternative robuste aux concurrents payants tels que le Gen-3 Alpha de Runway, la Dream Machine de Luma, Kling et Haulio, qui peuvent entraîner des frais annuels considérables pour des abonnements illimités.

Dans le domaine compétitif des fournisseurs de vidéos par IA, Pyramid Flow promet efficacité et flexibilité pour les développeurs, artistes et créateurs de contenu à la recherche de solutions avancées en génération vidéo.

Une Nouvelle Technique : Correspondance de Flux Pyramidal

La génération vidéo par IA nécessite des ressources de calcul significatives, nécessitant souvent plusieurs modèles pour différentes étapes, ce qui peut compliquer l'entraînement. Pyramid Flow introduit la correspondance de flux pyramidal, une technique qui réduit considérablement la charge computationnelle tout en préservant la qualité visuelle. Cette méthode achève la génération vidéo par une "pyramide" systématique d'étapes, n'utilisant la pleine résolution qu'à l'étape finale.

Cette méthodologie est détaillée dans un article pré-approuvé intitulé "Correspondance de Flux Pyramidal pour un Modélisation Générative Vidéo Efficiente," soumis à la revue en libre accès arXiv le 8 octobre 2024. L'équipe de recherche est composée de Yang Jin, Zhicheng Sun, Ningyuan Li, Kun Xu, et d'autres, pour la plupart affiliés à l'Université de Pékin et à Kuaishou Technology.

L'article décrit comment l'optimisation de la génération vidéo à travers différentes étapes facilite une convergence plus rapide de l'entraînement, permettant à Pyramid Flow de générer plus d'échantillons avec moins de traitement. En particulier, il réduit le nombre de tokens par un facteur de quatre par rapport aux modèles de diffusion traditionnels, améliorant ainsi l'efficacité de l'entraînement.

Le modèle peut produire des vidéos de 5 à 10 secondes en résolution 768p et à 24 images par seconde, entraîné sur des ensembles de données open source, notamment LAION-5B, CC-12M, SA-1B, WebVid-10M, et OpenVid-1M, totalisant environ 10 millions de vidéos en prise unique. Cependant, des préoccupations subsistent quant à l'origine de ces ensembles de données, certains comme LAION-5B étant accusés d'héberger du matériel protégé par des droits d'auteur sans consentement. Runway fait également face à des problèmes juridiques, poursuivie par des artistes pour des violations similaires des droits d'auteur.

Open Source et Utilisation Commerciale

Pyramid Flow est publié sous la licence MIT, permettant une large utilisation, y compris pour des projets commerciaux, des modifications et une redistribution, à condition de maintenir l'avis de droit d'auteur. Cela en fait un choix attrayant pour les développeurs et entreprises cherchant à intégrer des capacités vidéo par IA sans encourir les coûts associés aux modèles propriétaires.

Cependant, bien que Pyramid Flow soit un outil prometteur, il lui manque actuellement certaines fonctionnalités avancées disponibles dans les modèles propriétaires. Par exemple, le Gen-3 Alpha de Runway offre un contrôle détaillé sur des éléments comme les angles de caméra et les gestes humains que Pyramid Flow n'a pas encore reproduits. De plus, son introduction relativement récente signifie que son écosystème n'est pas aussi développé que celui de certains concurrents.

L'Avenir de la Génération Vidéo par IA

Alors que le marché de la génération vidéo par IA évolue, l'émergence de Pyramid Flow représente un tournant vers des alternatives open source plus accessibles capables de rivaliser avec des solutions propriétaires établies. Offrant une qualité vidéo impressionnante sans les contraintes des modèles traditionnels, Pyramid Flow est prêt à devenir un outil privilégié parmi les créateurs et développeurs.

À l'avenir, les acteurs de l'industrie suivront de près l'évolution de Pyramid Flow et ses améliorations potentielles, alors que tous s'affrontent pour la dominance technologique et l'acquisition d'utilisateurs dans ce domaine dynamique. Pendant ce temps, Sora d'OpenAI, présenté début 2024, reste largement non testé en dehors d'un groupe restreint d'utilisateurs initiaux.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles