Lanzamiento del Modelo de Generación de Video Sora: Tecnología Prometedora con Desafíos Significativos por Delante

Recientemente, OpenAI presentó su innovador modelo de generación de videos, Sora, que ha avanzado significativamente en la tecnología de texto a video. Sin embargo, pruebas realizadas por Bloomberg destacaron algunas limitaciones notables de Sora. Por ejemplo, en una escena donde un loro vuela frente a un mono, las alas del loro mostraron distorsión, y el mono, de manera extraña, lucía la cola del loro.

Estos incidentes subrayan los retos de Sora para comprender las propiedades físicas de los objetos. Bill Peebles, científico de OpenAI, reconoció estos problemas, afirmando: "De hecho, hay movimientos extraños en los clips."

Sora utiliza tecnología de transformadores de difusión para descomponer el contenido de video en una serie de segmentos más pequeños, empleando técnicas de eliminación de ruido para predecir las imágenes claras originales. Si bien este enfoque mejora la calidad de la generación de videos, Sora sigue enfrentando numerosos obstáculos, incluyendo la precisión en las interacciones físicas, la consistencia en los cambios de estado de los objetos, la coherencia en muestras largas, la aparición espontánea de objetos, el manejo adecuado de manos y partes del cuerpo, las demandas de recursos computacionales, las capacidades de generalización del modelo y la habilidad para editar y extender videos. En escenas complejas, Sora puede producir comportamientos poco realistas, como un balón de baloncesto pasando a través del aro o perros que se atraviesan entre sí mientras caminan.

A pesar del sólido rendimiento de Sora en escenarios específicos, OpenAI reconoce la necesidad de que el modelo supere una serie de desafíos técnicos. A medida que la tecnología avanza, tenemos razones para anticipar un futuro más prometedor para Sora.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles