С учетом того, что компании все больше используют потенциал генеративного ИИ, они стремятся разработать более продвинутые решения. Ярким примером является Lumiere — модель диффузии пространства-времени, созданная исследователями из Google, Института науки имени Вейцмана и Тель-Авивского университета, предназначенная для улучшения генерации реалистичного видео.
В недавно опубликованной статье описывается инновационная технология Lumiere, хотя она еще недоступна для публичного тестирования. После релиза Google может стать серьезным конкурентом в сфере ИИ-видео, где доминируют такие компании, как Runway, Pika и Stability AI.
Что умеет Lumiere?
Название Lumiere происходит от слова "свет" и обозначает модель диффузии видео, предназначенную для генерации как реалистичных, так и стилизованных видеоматериалов. Пользователи могут вводить текстовые описания на естественном языке, чтобы создавать видео, соответствующие их запросам. Также есть возможность загрузки статичных изображений и применения текстовых подсказок для их преобразования в динамические видео. Ключевыми функциями являются инпейнтинг, позволяющий вставлять конкретные объекты по текстовым командам; кинемаграф, добавляющий движение к определенным частям сцены; и стилизованная генерация, позволяющая пользователям создавать видео в стиле выбранного референсного изображения.
Исследователи подчеркивают, что «мы демонстрируем передовые результаты генерации текста в видео, облегчая широкий спектр задач по созданию контента и приложениям редактирования видео, включая преобразование изображений в видео, инпейнтинг видео и стилизованную генерацию».
Показатели и методология
Хотя в индустрии существуют аналогичные возможности, предлагаемые, например, Runway и Pika, авторы утверждают, что современные модели часто испытывают трудности с временной согласованностью из-за каскадного подхода. Обычно базовая модель генерирует ключевые кадры, а затем модели временной суперразрешающей обработки заполняют пробелы, что может привести к ограничениям по продолжительности видео и реалистичности движения.
Lumiere решает эти проблемы с помощью архитектуры Space-Time U-Net, которая генерирует полную временную продолжительность видео за один проход, улучшая реализм и согласованность. "Используя как пространственное, так и временное понижение и повышение разрешения и основываясь на предварительно обученной модели диффузии текста в изображение, мы обучаемся производить видео с полной частотой кадров и низким разрешением, обрабатывая их на нескольких пространственно-временных масштабах," — заявили исследователи.
Обученная на наборе данных из 30 миллионов видео и соответствующих текстовых аннотаций, Lumiere может генерировать 80 кадров со скоростью 16 кадров в секунду, хотя источник набора данных остается неясным.
Сравнение с другими моделями ИИ-видео
В тестах против моделей от Pika, Runway и Stability AI исследователи отметили, что хотя эти конкуренты достигают высокого качества изображения в каждом кадре, их короткие четырехсекундные выходные данные часто страдают от недостатка динамического движения, что приводит к почти статичным клипам. ImagenVideo также продемонстрировала ограниченное качество движения.
«В отличие от этого, наш метод генерирует 5-секундные видео с большим количеством движения, сохраняя как временную согласованность, так и общее качество,» — сообщают исследователи. Опрос пользователей показал предпочтение Lumiere по сравнению с другими моделями для генерации видео на основе текста и изображений.
Хотя Lumiere представляет собой многообещающее достижение в области ИИ-видео, важно отметить, что она еще не доступна для тестирования. Исследователи также признали наличие ограничений, таких как невозможность генерации видео с несколькими кадрами или бесшовными переходами между сценами — область, которую планируют изучить в будущем.