Stability AI Dévoile SVD 1.1 : Une Avancée dans la Génération Vidéo par IA
Stability AI, reconnue pour sa suite croissante de modèles d’IA open-source dédiés à la création de contenu et à la programmation, a annoncé une mise à jour de son modèle de diffusion latente image-à-vidéo, connu sous le nom de Stable Video Diffusion (SVD).
Présentation de SVD 1.1
La nouvelle version, SVD 1.1, constitue une itération améliorée de SVD 1.0, optimisée pour générer des vidéos courtes par IA avec un mouvement amélioré et une cohérence renforcée. Tom Mason, CTO de Stability AI, a confirmé que SVD 1.1 est désormais disponible en téléchargement public via Hugging Face. De plus, il sera inclus dans les abonnements de Stability AI, variant selon les niveaux pour les particuliers et les entreprises, à partir d'un plan gratuit jusqu'à 20 $ par mois. Les utilisateurs commerciaux devront s'abonner pour la mise en œuvre, tandis que l'utilisation en recherche reste gratuite.
Fonctionnalités Améliorées de SVD 1.1
Lancé en novembre 2023, Stability AI a d'abord introduit deux modèles pour la génération vidéo par IA : SVD, qui créait des vidéos de quatre secondes avec jusqu'à 14 images à partir d'une image fixe, et SVD-XT, une version optimisée générant jusqu'à 25 images. S'appuyant sur SVD-XT, le nouveau SVD 1.1 génère également des vidéos de quatre secondes avec 25 images à une résolution de 1024×576, lorsqu'il reçoit un cadre de contexte de la même taille.
Cette mise à jour vise à assurer une plus grande cohérence dans les productions vidéo par rapport aux versions antérieures. Les modèles précédents peinaient parfois à atteindre le photoréalisme, manquaient de mouvement et avaient des difficultés à générer des visages et des personnes réalistes. SVD 1.1 s’efforce de résoudre ces problèmes, promettant une meilleure dynamique des mouvements dans les résultats finaux.
Selon l’entreprise, "L'optimisation pour SVD 1.1 a été réalisée avec un conditionnement fixe à 6 FPS et ID de bucket de mouvement 127 afin d'améliorer la cohérence des résultats sans nécessiter d'ajustements des hyperparamètres." Bien que ces paramètres puissent toujours être ajustés, les performances pourraient varier en dehors de ces conditions fixes.
Performance et Perspectives d'Avenir
Bien que Stability AI affirme avoir apporté des améliorations avec SVD 1.1, son efficacité dans le monde réel reste à évaluer. La page Hugging Face du modèle souligne son design axé sur la recherche et reconnaît que certains défis des versions précédentes peuvent persister.
En plus de Hugging Face, les modèles de Stable Video Diffusion sont accessibles via une API sur la plateforme développeur de Stability AI, permettant aux développeurs d'intégrer facilement des capacités avancées de génération vidéo dans leurs applications. L’API de Stable Video Diffusion génère quatre secondes de vidéo à 24 FPS au format MP4, produisant 25 cadres générés accompagnés de cadres interpolés. Des fonctionnalités telles que le contrôle de la force de mouvement et le support de multiples mises en page et résolutions — y compris 1024×576, 768×768 et 576×1024 — améliorent l’utilisabilité.
Regard vers l'Avenir
En 2023, Stability AI a fait des progrès notables dans l'IA générative avec des mises à jour fréquentes des modèles, une tendance qui semble se poursuivre en 2024. Fondée en 2019, l’entreprise a attiré un investissement considérable, incluant un tour de financement de 101 millions de dollars en 2022. Cependant, elle fait face à la concurrence d'autres acteurs dans le domaine de la génération vidéo par IA, tels que Runway et Pika, qui gagnent en popularité grâce à des plateformes web conviviales offrant également des options de personnalisation et de mise à l’échelle des vidéos.
Récemment, Runway a introduit la fonctionnalité Multi Motion Brush, permettant aux utilisateurs d'animer des zones spécifiques de leurs vidéos par IA. De même, Pika permet aux utilisateurs d'éditer des régions spécifiques dans les vidéos, comme transformer le visage d'une vache en celui d'un canard. Néanmoins, aucun de ces services ne propose d’API pour leurs modèles, ce qui limite l’intégration dans des applications tierces.
Alors que le paysage de la génération vidéo par IA continue d’évoluer, SVD 1.1 de Stability AI représente une avancée remarquable qui mérite d’être suivie.