Инновационная AI-система Alibaba 'EMO' создает реалистичные видео с речью и пением на основе ваших фотографий.

Исследователи из Института интеллектуальных вычислений Alibaba представили «EMO» (Emote Portrait Alive), инновационную систему ИИ, способную анимировать одно портретное фото для создания реалистичных видео с участием человека, который говорит или поет.

В своем исследовании, опубликованном на arXiv, команда описывает, как EMO генерирует плавные и выразительные движения лица и наклоны головы, точно соответствующие нюансам предоставленной аудиодорожки. Это значительный шаг вперед в области генерации видео «говорящих голов», которая долгое время представляла собой трудноразрешимую задачу для исследователей ИИ.

«Традиционные методы часто не могут captar полное разнообразие человеческих выражений и уникальность индивидуальных черт лица,» - объяснил ведущий автор Линьруй Тянь. «Чтобы преодолеть эти трудности, мы предлагаем EMO, новую структуру, использующую подход прямого синтеза аудио в видео, что устраняет необходимость в 3D моделях или контрольных точках на лице.»

Прямое преобразование аудио в видео

Система EMO использует диффузионную модель — мощную технологию ИИ, известную своей способностью создавать реалистичные синтетические изображения. Исследователи обучили EMO на наборе данных свыше 250 часов видео «говорящих голов», собранных из публичных выступлений, фильмов, телешоу и музыкальных номеров.

В отличие от ранних методов, зависящих от 3D моделей лиц или смешанных форм, EMO напрямую преобразует аудиоволны в видео кадры. Эта способность позволяет ей точно передавать тонкие движения и уникальные особенности, характерные для естественной речи.

Высокое качество видео и выразительность

Согласно результатам исследования, EMO значительно превосходит существующие передовые методы по качеству видео, сохранению идентичности и выразительности. Пользовательское исследование показало, что видео, созданные с помощью EMO, воспринимались как более естественные и эмоциональные, чем аналогичные работы конкурирующих систем.

Реалистичная анимация пения

Кроме разговорных видео, EMO может анимировать поющих портреты, создавая точные формы губ и выразительные черты лица, синхронизированные с вокальными выступлениями. Система может генерировать видео произвольной длины в зависимости от продолжительности входного аудио.

«Экспериментальные результаты показывают, что EMO не только создает убедительные видео с речью, но и анимации пения в различных стилях, значительно превосходя существующие методики по выразительности и реалистичности,» - утверждается в исследовании.

Разработки, представленные EMO, намекают на будущее, в котором персонализированный видеоконтент может легко синтезироваться из одной фотографии и аудиофайла. Тем не менее, остаются этические вопросы касательно возможного злоупотребления такой технологией для подделки или дезинформации. Исследователи стремятся разработать методы детекции синтетического видео для решения этих проблем.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles