À l'ère du numérique, le traitement et la génération de contenus visuels complexes sont devenus des enjeux cruciaux. Sora est une technologie avancée de génération vidéo qui excelle dans la gestion de ces visuels complexes grâce à sa méthodologie unique.
Au cœur de Sora se trouve le concept de "patches spatiotemporels", qui décomposent le contenu vidéo en petits segments portant des informations spatiotemporelles. Bien que cette méthode ait longtemps été utilisée dans le traitement d'images, Sora l'étend à la dimension temporelle, capturant à la fois les mouvements des objets et les changements de scènes. Imaginez trancher chaque image d'un film en segments plus petits qui englobent non seulement des parties de l'image, mais aussi l'évolution de ces zones dans le temps.
Sora génère ces patches spatiotemporels en utilisant un réseau de compression vidéo. Ce réseau compresse les données vidéo brutes en représentations de faible dimension, constituant ainsi un réseau composé de nombreux patches. Ces patches sont ensuite identifiés et modifiés par un transformateur préentraîné, tel qu'un modèle Transformer. En se basant sur des invites textuelles fournies, le transformateur ajuste les patches correspondants, produisant ainsi du contenu visuel.
La capacité de Sora repose sur son approche de génération fondée sur un modèle linguistique. Alors que le modèle linguistique génère des passages de texte en prédisant des tokens, Sora applique un principe similaire pour prédire et générer des informations spatiotemporelles en vidéo. Cette méthode permet à Sora de créer une multitude de contenus vidéo à partir de simples invites textuelles.
En résumé, les patches spatiotemporels sont essentiels à la capacité de Sora à traiter des contenus visuels complexes. En employant cette approche innovante, Sora crée un lien entre le texte et la vidéo, ouvrant une nouvelle ère de créativité et d'expérience dans le paysage vidéo numérique.