Последняя модель искусственного интеллекта от Microsoft улучшает технологии генерации на основе траекторий видео.

AI-компании активно конкурируют в области разработки технологий генерации видео. В последние месяцы такие ключевые игроки, как Stability AI и Pika Labs, представили модели, которые создают видео на основе текстовых и изображенческих подсказок. В продолжение этих достижений Microsoft анонсировала новую модель DragNUWA, которая предназначена для предоставления более точного контроля в производстве видео.

DragNUWA улучшает традиционные методы ввода текста и изображений, используя генерацию на основе траекторий, что позволяет пользователям управлять объектами или целыми кадрами видео по заданным путям. Эта инновация обеспечивает точный контроль за семантическими, пространственными и временными аспектами создания видео с гарантией высококачественного результата.

Microsoft опубликовала веса модели и демонстрацию в открытом доступе, приглашая сообщество к экспериментам. Однако важно отметить, что это по-прежнему исследовательская инициатива и модель еще не полностью усовершенствована.

Что делает DragNUWA уникальным?

Генерация видео с помощью ИИ обычно основывается на текстовых, изображенческих или траекторных вводах, но такие методы часто не позволяют добиться детального контроля. Например, использование только текста и изображений может упустить тонкие детали движения, важные для видео, а язык сам по себе может создать неясности касательно абстрактных понятий.

В августе 2023 года команда ИИ Microsoft представила DragNUWA — модель генерации видео на основе диффузии открытого домена, которая интегрирует изображения, текст и траектории для обеспечения точного управления видео. Пользователи могут задавать конкретные текстовые, изображенческие и траекторные вводы для управления различными элементами, такими как движения камеры и движения объектов в результативном видео.

Например, пользователи могут загрузить изображение лодки на воде, сочетая его с текстовой подсказкой «лодка плывет по озеру» и указаниями по движению лодки. Этот ввод создает видео с лодкой, двигающейся согласно заданным параметрам, где траектория уточняет детали движения, язык описывает будущие объекты, а изображения различают субъекты.

DragNUWA в действии

Ранняя версия 1.5 DragNUWA только что была выпущена на Hugging Face, используя модель стабильной диффузии видео от Stability AI для анимации изображений по заданным путям. По мере развития этой технологии она обещает упростить процесс генерации и редактирования видео. Представьте себе: трансформация фонов, анимация изображений и управление движением с помощью простой линии.

Энтузиасты ИИ с нетерпением ждут этих достижений, рассматривая их как значительный шаг в области креативного ИИ. Тем не менее, реальная эффективность модели еще предстоит выяснить. Первоначальные тесты показывают, что DragNUWA может точно выполнять движения камеры и движения объектов по различным траекториям перетаскивания.

«DragNUWA поддерживает сложные кривые траектории, позволяя объектам двигаться по замысловатым путям. Она также учитывает переменную длину траекторий, предоставляя более широкий диапазон движений. Кроме того, DragNUWA может контролировать траектории нескольких объектов одновременно. Насколько нам известно, ни одна другая модель генерации видео не достигла такого контроля траекторий, что подчеркивает потенциал DragNUWA для продвижения технологий генерации видео», — заявили исследователи Microsoft в своей статье.

Эта работа вносит свой вклад в постоянно расширяющуюся область исследований видео на основе ИИ. В последнее время Pika Labs привлекла внимание благодаря своему интерфейсу генерации видео из текста, аналогичному ChatGPT, который создает качественные короткие видео с различными возможностями настройки.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles