Si vous suivez des influenceurs ou créateurs d'IA sur les réseaux sociaux, vous avez peut-être remarqué l'engouement suscité par un nouveau modèle de génération de vidéos appelé « Kling ». Kling génère des vidéos très réalistes à partir de textes et de paramètres dans l'application, comparable au modèle d'IA exclusif de OpenAI, Sora. Actuellement en version bêta fermée, Sora a été partagé de manière sélective avec quelques artistes et cinéastes pour des tests, notamment afin d'explorer ses utilisations controversées.
Récemment, Kling a démontré ses capacités sur YouTube en reproduisant « air head », l'une des premières vidéos créées avec Sora par l'agence créative Shy Kids.
Qu'est-ce que Kling et ses Origines ?
Selon le South China Morning Post (SCMP), Kling a été développé par Kuaishou Technology, la société derrière Kuaishou, la deuxième application de vidéos courtes la plus populaire en Chine (appelée Kwai en dehors de la Chine), avec 400 millions d'utilisateurs actifs quotidiens (DAU). Elle est devancée seulement par Douyin, la version chinoise de TikTok, qui compte 600 millions de DAU. Cet engagement utilisateur élevé rend Kling particulièrement attrayant, renforçant potentiellement la position de Kuaishou face à Douyin.
Le SCMP précise que le modèle d'IA Kling, actuellement en essai, peut transformer des textes en clips vidéo d'une durée allant jusqu'à 2 minutes en résolution 1080p, prenant en charge divers formats. Il peut interpréter des commandes pour créer des vidéos reflétant des scénarios réels ou des scènes imaginaires.
D'après des sources citées par Perplexity, Kling utilise un autoencodeur variationnel 3D unique pour la reconstruction faciale et corporelle, capturant des expressions et mouvements détaillés à partir d'une seule image de corps entier. Ceci est perfectionné par un mécanisme d'attention conjointe spatio-temporelle 3D, permettant au modèle de gérer des scènes complexes tout en respectant les lois de la physique.
Accéder à Kling et Coût
Kling est disponible gratuitement via les applications Kuaishou, Kwai et KwaiCut (cette dernière étant un concurrent de l'outil de montage vidéo CapCut de TikTok). Cependant, les utilisateurs potentiels en dehors de la Chine pourraient rencontrer des problèmes d'accessibilité ; des rapports indiquent qu'un numéro de téléphone chinois est requis pour télécharger et utiliser l'application.
Justine Moore, partenaire en capital-risque chez a16z, a suggéré une solution en utilisant un numéro de téléphone temporaire via l'application KwaiCut. Le cinéaste américain Dustin Hollywood a également recommandé d'utiliser ChatGPT pour traduire les menus et interfaces de l'application pour les non-hispanophones.
Capacités de Kling
Les premiers utilisateurs ont rapporté que Kling excelle dans la création de vidéos immersives et réalistes en haute résolution, couvrant divers genres, des séquences d'action aux récréations de jeux de tir à la première personne et scénarios de fantasy épique rappelant House of the Dragon ou Game of Thrones.
Dustin Hollywood mentionne qu'il faut environ deux minutes pour générer une vidéo à partir d'une commande de complexité « intermédiaire ». Toutefois, il souligne certaines limitations, en particulier dans la représentation précise des races et des couleurs de peau, similaires aux défis rencontrés par les capacités de génération d'images IA de Google, Gemini.
Malgré ces inconvénients, Kling fait sensation dans la communauté cinématographique, incitant de nombreux professionnels, dont Hollywood, à reconsidérer leurs opinions sur Sora et la stratégie de distribution prudente de OpenAI.
L'Impact de Kling sur le Paysage Vidéo de l’IA
L'émergence de Kling soulève des questions sur sa capacité à inciter les fournisseurs de modèles vidéo d'IA basés aux États-Unis, tels que OpenAI, Runway et Pika, à améliorer leurs offres en qualité et en résolution. Il reste à voir s'ils pourront s'adapter rapidement pour rivaliser ou dépasser ce que propose Kling.
Pour tous ceux qui s'intéressent à la création cinématographique alimentée par l'IA ou à l'industrie cinématographique en général, l’introduction de Kling est certainement une avancée passionnante. Espérons une sortie complète aux États-Unis sans les restrictions actuelles sur la vérification des numéros de téléphone.