Modelo de Geração de Vídeo Sora Lançado: Tecnologia Promissora com Desafios Significativos Pela Frente

Recentemente, a OpenAI apresentou seu inovador modelo de geração de vídeo, Sora, que avançou significativamente na tecnologia de texto para vídeo. No entanto, testes realizados pela Bloomberg destacaram algumas limitações notáveis do Sora. Por exemplo, em uma cena onde um papagaio voa próximo a um macaco, as asas do papagaio apresentaram distorção, e o macaco inexplicavelmente exibia a cauda do papagaio.

Esses casos evidenciam os desafios do Sora em compreender as propriedades físicas dos objetos. Bill Peebles, um cientista da OpenAI, reconheceu esses problemas, afirmando: "Existem, de fato, alguns movimentos estranhos nos clipes."

O Sora utiliza a tecnologia de transformadores de difusão para dividir o conteúdo de vídeo em uma série de segmentos menores, aplicando técnicas de remoção de ruído para prever as imagens originais e nítidas. Embora essa abordagem melhore a qualidade da geração de vídeo, o Sora continua enfrentando uma série de obstáculos, incluindo precisão nas interações físicas, consistência nas mudanças de estado dos objetos, coerência em amostras longas, aparições espontâneas de objetos, manipulação adequada de mãos e partes do corpo, demandas de recursos computacionais, capacidades de generalização do modelo e a habilidade de editar e expandir vídeos. Em cenas complexas, o Sora pode gerar comportamentos irrealistas, como uma bola de basquete passando pelo lado de uma cesta ou cães atravessando uns aos outros enquanto caminham.

Apesar do desempenho impressionante do Sora em cenários específicos, a OpenAI reconhece a necessidade de o modelo superar uma série de desafios técnicos. À medida que a tecnologia avança, temos motivos para esperar um futuro mais promissor para o Sora.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles