Недавно на YouTube-канале WVFRM Podcast прошло интервью с ключевой командой разработчиков Sora — инновационной модели генерации видео от OpenAI.
В ходе обсуждения лидеры проекта Билл Пиблз, Тим Брукс и Адиitya Рамеш поделились информацией о текущем состоянии Sora и ее будущем направлении. Они подчеркнули, что Sora всё ещё находится на стадии сбора мнений пользователей и ещё не превратилась в законченный продукт. Поэтому в ближайшее время она не будет доступна широкой аудитории, и нет четкого расписания, когда она станет полностью реализованной.
Объясняя принцип работы Sora, команда отметила, что она анализирует огромные объемы видеоданных, чтобы научиться генерировать реалистичные видео. Технология сочетает возможности крупных языковых моделей, таких как GPT, с диффузионными моделями, подобными DALL-E. Хотя структура Sora ближе к GPT, ее методы обучения больше соответствуют использовавшимся в DALL-E.
Что касается источников обучающих данных Sora, команда смогла лишь сообщить, что используются как публично доступные наборы данных, так и те, которые авторизованы OpenAI. Несмотря на сообщения о том, что Sora может быстро генерировать относительно качественные видео на основе текстовых подсказок, эксперты подчеркивают ограничения современных AI-инструментов, которые не могут полностью заменить труд человеческих создателей.
Концепт-художник Киану Саутен отметил: "Многие считают, что эпоха Голливуда подходит к концу, но я вижу это по-другому. Производственные процессы в Голливуде сложны, и сгенерированные видео всё ещё сталкиваются с множеством проблем, особенно в отношении временной согласованности и других деталей."