Microsoft представляет VASA-1: ИИ-фреймворк, который оживляет фотографии людей с помощью голоса и песен.

Microsoft сделала значительный шаг в генерации контента с использованием искусственного интеллекта, представив VASA-1 — революционную платформу, преобразующую статические фотографии людей в динамичные видео с разговором и пением. Этот проект представляет собой заметный прорыв в области AI-контента, требуя минимальных вводных данных: всего лишь одно статичное изображение и аудиофайл. VASA-1 оживляет эти фотографии, обеспечивая реалистичное синхронизированное движение губ, выражения лиц и движения головы.

Фокус на AI-агентов

Microsoft продемонстрировала различные примеры возможностей VASA-1, включая впечатляющее видео с Моной Лизой, читающей рэп. Тем не менее, компания признает потенциальные риски технологии дипфейков и ясно указала, что VASA-1 на сегодняшний день является исследовательской демонстрацией без немедленных планов для коммерциализации.

Оживление статичных изображений

Современные инструменты AI для видео-контента могут как приносить пользу, так и создавать угрозу. Хотя они способны создавать привлекательные рекламные материалы, их также можно использовать для создания вредоносных дипфейков. Однако есть положительные стороны технологии дипфейков: например, художник может согласиться на создание своего цифрового образа для рекламных нужд. VASA-1 балансирует на этой тонкой грани, "генерируя реалистичные говорящие лица виртуальных персонажей", обогащая их визуальными эмоциональными навыками.

По словам Microsoft, модель может взять статичное изображение человека и аудиофайл речи, чтобы создать видео, в котором движение губ синхронизировано с аудио и включаются различные эмоции, нюансы лиц и естественные движения головы. Компания привела примеры, демонстрирующие, как одно портретное изображение можно преобразовать в видео с говорящим или поющим человеком.

“Ключевые инновации включают модель генерации динамики лица и движений головы, работающую в латентном пространстве лиц, а также создание выразительного и расслоенного латентного пространства с использованием видео”, - объяснили исследователи на сайте компании.

Контроль пользователя над AI-генерацией

VASA-1 предоставляет пользователям детальный контроль над создаваемым контентом, позволяя регулировать последовательности движений, направление взгляда, положение головы и эмоциональное выражение с помощью простых ползунков. Также она может работать с различными типами контента, включая художественные изображения, аудио пения и речь на других языках.

Будущее внедрения VASA

Хотя образцы Microsoft выглядят реалистично, некоторые клипы выдают их AI-природу, движения выглядят несколько неестественно. Подход генерирует видео с разрешением 512 x 512 пикселей и до 45 кадров в секунду при оффлайн-обработке, поддерживая 40 кадров в секунду при онлайн-трансляции. Microsoft утверждает, что VASA-1 превосходит существующие методы на основе обширного тестирования с новыми метриками.

Тем не менее, важно осознавать потенциал злоупотреблений в искажении представлений о личностях, поэтому Microsoft решила не выпускать VASA-1 в качестве коммерческого продукта или API. Компания подчеркивает, что все портретные изображения, использованные в демонстрационных клипах, были сгенерированы AI, и что технология в первую очередь направлена на создание положительных визуальных эмоциональных навыков для виртуальных AI-аватаров, а не на создание обманчивого контента.

В долгосрочной перспективе Microsoft видит в VASA-1 путь к созданию реалистичных аватаров, которые будут воспроизводить человеческие движения и эмоции. Это достижение может способствовать улучшению образовательного равенства, повысить доступность для людей с трудностями в общении и предоставить сопровождение или терапевтическую поддержку нуждающимся.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles