Последняя модель искусственного интеллекта от Microsoft улучшает технологии генерации на основе траекторий видео.

Home Новости ИИ Последняя модель искусственного интеллекта от Microsoft улучшает технологии генерации на основе траекторий видео.

Updated on январь 9 2024

AI-компании активно конкурируют в области разработки технологий генерации видео. В последние месяцы такие ключевые игроки, как Stability AI и Pika Labs, представили модели, которые создают видео на основе текстовых и изображенческих подсказок. В продолжение этих достижений Microsoft анонсировала новую модель DragNUWA, которая предназначена для предоставления более точного контроля в производстве видео.

DragNUWA улучшает традиционные методы ввода текста и изображений, используя генерацию на основе траекторий, что позволяет пользователям управлять объектами или целыми кадрами видео по заданным путям. Эта инновация обеспечивает точный контроль за семантическими, пространственными и временными аспектами создания видео с гарантией высококачественного результата.

Microsoft опубликовала веса модели и демонстрацию в открытом доступе, приглашая сообщество к экспериментам. Однако важно отметить, что это по-прежнему исследовательская инициатива и модель еще не полностью усовершенствована.

Что делает DragNUWA уникальным?

Генерация видео с помощью ИИ обычно основывается на текстовых, изображенческих или траекторных вводах, но такие методы часто не позволяют добиться детального контроля. Например, использование только текста и изображений может упустить тонкие детали движения, важные для видео, а язык сам по себе может создать неясности касательно абстрактных понятий.

В августе 2023 года команда ИИ Microsoft представила DragNUWA — модель генерации видео на основе диффузии открытого домена, которая интегрирует изображения, текст и траектории для обеспечения точного управления видео. Пользователи могут задавать конкретные текстовые, изображенческие и траекторные вводы для управления различными элементами, такими как движения камеры и движения объектов в результативном видео.

Например, пользователи могут загрузить изображение лодки на воде, сочетая его с текстовой подсказкой «лодка плывет по озеру» и указаниями по движению лодки. Этот ввод создает видео с лодкой, двигающейся согласно заданным параметрам, где траектория уточняет детали движения, язык описывает будущие объекты, а изображения различают субъекты.

DragNUWA в действии

Ранняя версия 1.5 DragNUWA только что была выпущена на Hugging Face, используя модель стабильной диффузии видео от Stability AI для анимации изображений по заданным путям. По мере развития этой технологии она обещает упростить процесс генерации и редактирования видео. Представьте себе: трансформация фонов, анимация изображений и управление движением с помощью простой линии.

Энтузиасты ИИ с нетерпением ждут этих достижений, рассматривая их как значительный шаг в области креативного ИИ. Тем не менее, реальная эффективность модели еще предстоит выяснить. Первоначальные тесты показывают, что DragNUWA может точно выполнять движения камеры и движения объектов по различным траекториям перетаскивания.

«DragNUWA поддерживает сложные кривые траектории, позволяя объектам двигаться по замысловатым путям. Она также учитывает переменную длину траекторий, предоставляя более широкий диапазон движений. Кроме того, DragNUWA может контролировать траектории нескольких объектов одновременно. Насколько нам известно, ни одна другая модель генерации видео не достигла такого контроля траекторий, что подчеркивает потенциал DragNUWA для продвижения технологий генерации видео», — заявили исследователи Microsoft в своей статье.

Эта работа вносит свой вклад в постоянно расширяющуюся область исследований видео на основе ИИ. В последнее время Pika Labs привлекла внимание благодаря своему интерфейсу генерации видео из текста, аналогичному ChatGPT, который создает качественные короткие видео с различными возможностями настройки.

Luminar партнерится с Mercedes-Benz для запуска инновационной системы автоматического экстренного рулевого управления.

Rabbit представляет r1 AI Pocket Companion: ваш личный помощник для легкого управления задачами.

Most people like

MyScale

190.4K

Представляем базу данных нового поколения с возможностями векторного поиска и продвинутой SQL-аналитикой. Эта инновационная платформа революционизирует управление данными, позволяя пользователям получать глубокие инсайты и улучшать процессы принятия решений. Используйте силу ИИ для повышения вашей аналитики данных на новый уровень.

Векторный поиск AI Knowledge Base

editGPT - Proofread, Edit, and Track Changes in chatGPT

113.8K

Представляем бесплатное расширение для браузера, разработанное для улучшения вашего взаимодействия с ChatGPT. Оно проверяет, редактирует и отслеживает изменения. Повышайте качество своего письма без лишних усилий и обеспечивайте ясность в каждом общении!

вычитать Other

Gladia

177.3K

Революционные технологии транскрипции, перевода и аудиоаналитики на основе искусственного интеллекта.

Речевой ввод AI Product Description Generator

LightPDF

737.3K

Раскройте возможности бесплатного AI-редактора, конвертера и ридера PDF, который упрощает управление вашими документами. Независимо от того, нужно ли вам редактировать, конвертировать или легко читать PDF-файлы, наш инструмент улучшает рабочий процесс и повышает продуктивность. Испытайте бесшовную функциональность, созданную для удовлетворения всех ваших потребностей в PDF, и всё это без каких-либо затрат!

Редактор PDF AI PDF

Find AI tools in YBX