Google представил Lumiere: модель диффузии пространства-времени для создания реалистичных AI-видео.

Home Новости ИИ Google представил Lumiere: модель диффузии пространства-времени для создания реалистичных AI-видео.

Updated on январь 24 2024

С учетом того, что компании все больше используют потенциал генеративного ИИ, они стремятся разработать более продвинутые решения. Ярким примером является Lumiere — модель диффузии пространства-времени, созданная исследователями из Google, Института науки имени Вейцмана и Тель-Авивского университета, предназначенная для улучшения генерации реалистичного видео.

В недавно опубликованной статье описывается инновационная технология Lumiere, хотя она еще недоступна для публичного тестирования. После релиза Google может стать серьезным конкурентом в сфере ИИ-видео, где доминируют такие компании, как Runway, Pika и Stability AI.

Что умеет Lumiere?

Название Lumiere происходит от слова "свет" и обозначает модель диффузии видео, предназначенную для генерации как реалистичных, так и стилизованных видеоматериалов. Пользователи могут вводить текстовые описания на естественном языке, чтобы создавать видео, соответствующие их запросам. Также есть возможность загрузки статичных изображений и применения текстовых подсказок для их преобразования в динамические видео. Ключевыми функциями являются инпейнтинг, позволяющий вставлять конкретные объекты по текстовым командам; кинемаграф, добавляющий движение к определенным частям сцены; и стилизованная генерация, позволяющая пользователям создавать видео в стиле выбранного референсного изображения.

Исследователи подчеркивают, что «мы демонстрируем передовые результаты генерации текста в видео, облегчая широкий спектр задач по созданию контента и приложениям редактирования видео, включая преобразование изображений в видео, инпейнтинг видео и стилизованную генерацию».

Показатели и методология

Хотя в индустрии существуют аналогичные возможности, предлагаемые, например, Runway и Pika, авторы утверждают, что современные модели часто испытывают трудности с временной согласованностью из-за каскадного подхода. Обычно базовая модель генерирует ключевые кадры, а затем модели временной суперразрешающей обработки заполняют пробелы, что может привести к ограничениям по продолжительности видео и реалистичности движения.

Lumiere решает эти проблемы с помощью архитектуры Space-Time U-Net, которая генерирует полную временную продолжительность видео за один проход, улучшая реализм и согласованность. "Используя как пространственное, так и временное понижение и повышение разрешения и основываясь на предварительно обученной модели диффузии текста в изображение, мы обучаемся производить видео с полной частотой кадров и низким разрешением, обрабатывая их на нескольких пространственно-временных масштабах," — заявили исследователи.

Обученная на наборе данных из 30 миллионов видео и соответствующих текстовых аннотаций, Lumiere может генерировать 80 кадров со скоростью 16 кадров в секунду, хотя источник набора данных остается неясным.

Сравнение с другими моделями ИИ-видео

В тестах против моделей от Pika, Runway и Stability AI исследователи отметили, что хотя эти конкуренты достигают высокого качества изображения в каждом кадре, их короткие четырехсекундные выходные данные часто страдают от недостатка динамического движения, что приводит к почти статичным клипам. ImagenVideo также продемонстрировала ограниченное качество движения.

«В отличие от этого, наш метод генерирует 5-секундные видео с большим количеством движения, сохраняя как временную согласованность, так и общее качество,» — сообщают исследователи. Опрос пользователей показал предпочтение Lumiere по сравнению с другими моделями для генерации видео на основе текста и изображений.

Хотя Lumiere представляет собой многообещающее достижение в области ИИ-видео, важно отметить, что она еще не доступна для тестирования. Исследователи также признали наличие ограничений, таких как невозможность генерации видео с несколькими кадрами или бесшовными переходами между сценами — область, которую планируют изучить в будущем.

От 'Vultures' от Ye до 'Настоящего детектива': как ИИ формирует тренды поп-культуры

Прорыв в генерации изображений с помощью ИИ: готовьтесь к наплыву дипфейков (Актуален ли LoRA?)

Most people like

DaVinci AI Art Generator

ДаВинчи,Эл Художественный генератор из текста.

Генератор искусственного интеллекта для искусства AI Art Generator

Stratup.ai

35.2K

Stratup.ai использует мощь искусственного интеллекта для быстрой генерации инновационных идей стартапов всего за считанные секунды.

ИИ AI Business Ideas Generator

Napkin AI

1.7M

Поднимите свой бизнес-сторителлинг, превратив текст в увлекательные визуалы. Визуальный контент улучшает коммуникацию, делая ваше сообщение более запоминающимся и impactful. Узнайте, как использовать силу визуалов для четкого и эффективного выражения сложных идей.

Визуальный ИИ Other

Corefactors - AI CRM Software

49.1K

Corefactors — это программный пакет с искусственным интеллектом, который автоматизирует операции по управлению доходами, оптимизируя процессы для ускорения роста бизнеса.

ИИ CRM AI Product Description Generator

Find AI tools in YBX