Recentemente, o canal do YouTube WVFRM Podcast apresentou uma entrevista com a equipe central por trás do Sora, um modelo inovador de geração de vídeos desenvolvido pela OpenAI. Durante a discussão, os líderes do projeto, Bill Peebles, Tim Brooks e Aditya Ramesh, compartilharam insights sobre o status atual e a direção futura do Sora. Eles enfatizaram que o Sora ainda está na fase de feedback dos usuários e não atingiu o estágio de um produto completo. Por essa razão, não estará disponível ao público no curto prazo, e não há uma cronologia definida para quando se tornará uma oferta plenamente realizada.
Ao explicar o funcionamento do Sora, a equipe destacou que ele analisa grandes volumes de dados de vídeo para aprender a gerar vídeos realistas. A tecnologia combina as capacidades de grandes modelos de linguagem, como o GPT, com modelos de difusão, como o DALL-E. Embora a estrutura do Sora seja mais parecida com a do GPT, suas técnicas de treinamento se aproximam das utilizadas no DALL-E.
Quanto às fontes de dados de treinamento do Sora, a equipe revelou apenas que utiliza uma combinação de conjuntos de dados disponíveis publicamente e aqueles autorizados pela OpenAI. Embora haja relatos de que o Sora pode gerar vídeos de qualidade relativamente alta a partir de comandos de texto em um curto período, especialistas da indústria ainda apontam as limitações das ferramentas de IA atuais, que não conseguem substituir totalmente o trabalho dos criadores humanos.
O artista conceitual de filmes, Reid Southen, comentou: "Muitos acreditam que Hollywood está chegando ao fim, mas eu vejo de forma diferente. Os processos de produção em Hollywood são complexos e esses vídeos gerados ainda enfrentam inúmeros desafios, especialmente em relação à consistência temporal e outros detalhes."