Microsoft представляет VASA-1: ИИ-фреймворк, который оживляет фотографии людей с помощью голоса и песен.

Home Новости ИИ Microsoft представляет VASA-1: ИИ-фреймворк, который оживляет фотографии людей с помощью голоса и песен.

Updated on апрель 18 2024

Microsoft сделала значительный шаг в генерации контента с использованием искусственного интеллекта, представив VASA-1 — революционную платформу, преобразующую статические фотографии людей в динамичные видео с разговором и пением. Этот проект представляет собой заметный прорыв в области AI-контента, требуя минимальных вводных данных: всего лишь одно статичное изображение и аудиофайл. VASA-1 оживляет эти фотографии, обеспечивая реалистичное синхронизированное движение губ, выражения лиц и движения головы.

Фокус на AI-агентов

Microsoft продемонстрировала различные примеры возможностей VASA-1, включая впечатляющее видео с Моной Лизой, читающей рэп. Тем не менее, компания признает потенциальные риски технологии дипфейков и ясно указала, что VASA-1 на сегодняшний день является исследовательской демонстрацией без немедленных планов для коммерциализации.

Оживление статичных изображений

Современные инструменты AI для видео-контента могут как приносить пользу, так и создавать угрозу. Хотя они способны создавать привлекательные рекламные материалы, их также можно использовать для создания вредоносных дипфейков. Однако есть положительные стороны технологии дипфейков: например, художник может согласиться на создание своего цифрового образа для рекламных нужд. VASA-1 балансирует на этой тонкой грани, "генерируя реалистичные говорящие лица виртуальных персонажей", обогащая их визуальными эмоциональными навыками.

По словам Microsoft, модель может взять статичное изображение человека и аудиофайл речи, чтобы создать видео, в котором движение губ синхронизировано с аудио и включаются различные эмоции, нюансы лиц и естественные движения головы. Компания привела примеры, демонстрирующие, как одно портретное изображение можно преобразовать в видео с говорящим или поющим человеком.

“Ключевые инновации включают модель генерации динамики лица и движений головы, работающую в латентном пространстве лиц, а также создание выразительного и расслоенного латентного пространства с использованием видео”, - объяснили исследователи на сайте компании.

Контроль пользователя над AI-генерацией

VASA-1 предоставляет пользователям детальный контроль над создаваемым контентом, позволяя регулировать последовательности движений, направление взгляда, положение головы и эмоциональное выражение с помощью простых ползунков. Также она может работать с различными типами контента, включая художественные изображения, аудио пения и речь на других языках.

Будущее внедрения VASA

Хотя образцы Microsoft выглядят реалистично, некоторые клипы выдают их AI-природу, движения выглядят несколько неестественно. Подход генерирует видео с разрешением 512 x 512 пикселей и до 45 кадров в секунду при оффлайн-обработке, поддерживая 40 кадров в секунду при онлайн-трансляции. Microsoft утверждает, что VASA-1 превосходит существующие методы на основе обширного тестирования с новыми метриками.

Тем не менее, важно осознавать потенциал злоупотреблений в искажении представлений о личностях, поэтому Microsoft решила не выпускать VASA-1 в качестве коммерческого продукта или API. Компания подчеркивает, что все портретные изображения, использованные в демонстрационных клипах, были сгенерированы AI, и что технология в первую очередь направлена на создание положительных визуальных эмоциональных навыков для виртуальных AI-аватаров, а не на создание обманчивого контента.

В долгосрочной перспективе Microsoft видит в VASA-1 путь к созданию реалистичных аватаров, которые будут воспроизводить человеческие движения и эмоции. Это достижение может способствовать улучшению образовательного равенства, повысить доступность для людей с трудностями в общении и предоставить сопровождение или терапевтическую поддержку нуждающимся.

Meta представляет Megalodon LLM, новую модель на основе архитектуры Transformer.

Llama 3 дебютирует с запуском нового автономного AI-чатбота от Meta.

Most people like

InteriorDecorator.ai

6.4K

Добро пожаловать в InteriorDecorator.ai, инновационную платформу ИИ, которая преображает интерьерный дизайн, создавая индивидуальные идеи для вашего дома. Используя современные алгоритмы ИИ, мы предлагаем уникальные предложения по декору, чтобы улучшить ваши жилые пространства. Исследуйте будущее дизайна интерьеров вместе с нами уже сегодня!

дизайн интерьеров AI Interior & Room Design

Glassix

219.8K

Откройте для себя мощь единой платформы обмена сообщениями на основе ИИ, которая революционизирует коммуникацию в бизнесе. Благодаря безшовной интеграции различных каналов, это современное решение улучшает сотрудничество и повышает продуктивность. Испытайте мгновенную связь, упрощенные рабочие процессы и персонализированные взаимодействия в одном интуитивно понятном интерфейсе. Примите будущее обмена сообщениями с интеллектуальной системой, созданной для улучшения вашей стратегии коммуникации и достижения успеха.

На базе ИИ AI Chatbot

Clerk Chat

84.4K

Повышайте эффективность бизнес-коммуникаций, преобразовав свой стационарный телефон в номера для отправки текстовых сообщений. Это революционное решение улучшает взаимодействие с клиентами и упрощает ваши возможности обмена сообщениями.

деловая переписка Other

Slite

353.7K

Получите надежные данные о компании с нашей базой знаний на основе ИИ. Узнайте точную и достоверную информацию для принятия обоснованных бизнес-решений.

база знаний AI Documents Assistant

Find AI tools in YBX