Récemment, le podcast WVFRM a diffusé une interview de l'équipe principale derrière Sora, un modèle de génération de vidéos innovant développé par OpenAI.
Lors de cette discussion, les responsables du projet, Bill Peebles, Tim Brooks et Aditya Ramesh, ont partagé des informations sur l'état actuel de Sora et ses perspectives d'avenir. Ils ont souligné que Sora est toujours en phase de retour d'expérience utilisateur et n’a pas encore atteint le stade d’un produit complet. Par conséquent, il ne sera pas disponible pour le public à court terme, et aucun calendrier précis n'est établi pour son évolution en une offre pleinement réalisée.
En expliquant le fonctionnement de Sora, l'équipe a précisé qu'il analyse d'énormes quantités de données vidéo pour apprendre à générer des vidéos réalistes. La technologie combine les capacités des grands modèles de langage, comme GPT, avec des modèles de diffusion tels que DALL-E. Bien que le cadre de Sora soit plus proche de celui de GPT, ses techniques d'entraînement s'apparentent davantage à celles utilisées dans DALL-E.
Concernant les sources de données d'entraînement de Sora, l'équipe a seulement pu révéler qu'il utilise une combinaison de jeux de données disponibles publiquement et de ceux autorisés par OpenAI. Bien qu'il ait été rapporté que Sora peut générer des vidéos d'une qualité relativement élevée à partir d'instructions textuelles rapidement, des experts de l'industrie soulignent encore les limitations des outils d'IA actuels, qui ne peuvent pas remplacer complètement le travail des créateurs humains.
L'artiste de concepts de films Reid Southen a déclaré : "Beaucoup pensent que Hollywood est en déclin, mais j’ai une opinion différente. Les processus de production à Hollywood sont complexes, et ces vidéos générées rencontrent encore de nombreux défis, notamment en ce qui concerne la cohérence temporelle et d'autres détails."