Lancement du Modèle de Génération Vidéo Sora : Une Technologie Prometteuse face à des Défis Importants

Récemment, OpenAI a dévoilé son modèle innovant de génération vidéo, Sora, qui a fait des avancées significatives dans la technologie du texte en vidéo. Cependant, des tests réalisés par Bloomberg ont mis en lumière certaines limites notables de Sora. Par exemple, dans une scène où un perroquet vole près d'un singe, les ailes du perroquet ont montré une distorsion, et le singe avait bizarrement la queue du perroquet.

Ces événements soulignent les difficultés de Sora à comprendre les propriétés physiques des objets. Bill Peebles, un scientifique d'OpenAI, a reconnu ces problèmes, affirmant : "Il y a en effet des mouvements étranges dans les clips."

Sora utilise la technologie des transformateurs de diffusion pour décomposer le contenu vidéo en une série de segments plus petits, utilisant des techniques de débruitage pour prédire les images claires originales. Bien que cette approche améliore la qualité de génération vidéo, Sora continue de faire face à de nombreux défis, notamment l'exactitude des interactions physiques, la cohérence des changements d'état des objets, la continuité dans les longs échantillons, l'apparition spontanée d'objets, la gestion correcte des mains et des parties du corps, les exigences en ressources informatiques, les capacités de généralisation du modèle, et la possibilité d'éditer et d'étendre les vidéos. Dans des scènes complexes, Sora peut produire des comportements irréalistes, comme un ballon de basket traversant le bord d'un cerceau ou des chiens se chevauchant accidentellement en marchant.

Malgré la performance impressionnante de Sora dans certains scénarios, OpenAI reconnaît la nécessité pour le modèle de surmonter un éventail de défis techniques. Avec l'avancée de la technologie, nous avons des raisons d'anticiper un avenir prometteur pour Sora.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles