Исследователи из Института интеллектуальных вычислений Alibaba представили «EMO» (Emote Portrait Alive), инновационную систему ИИ, способную анимировать одно портретное фото для создания реалистичных видео с участием человека, который говорит или поет.
В своем исследовании, опубликованном на arXiv, команда описывает, как EMO генерирует плавные и выразительные движения лица и наклоны головы, точно соответствующие нюансам предоставленной аудиодорожки. Это значительный шаг вперед в области генерации видео «говорящих голов», которая долгое время представляла собой трудноразрешимую задачу для исследователей ИИ.
«Традиционные методы часто не могут captar полное разнообразие человеческих выражений и уникальность индивидуальных черт лица,» - объяснил ведущий автор Линьруй Тянь. «Чтобы преодолеть эти трудности, мы предлагаем EMO, новую структуру, использующую подход прямого синтеза аудио в видео, что устраняет необходимость в 3D моделях или контрольных точках на лице.»
Прямое преобразование аудио в видео
Система EMO использует диффузионную модель — мощную технологию ИИ, известную своей способностью создавать реалистичные синтетические изображения. Исследователи обучили EMO на наборе данных свыше 250 часов видео «говорящих голов», собранных из публичных выступлений, фильмов, телешоу и музыкальных номеров.
В отличие от ранних методов, зависящих от 3D моделей лиц или смешанных форм, EMO напрямую преобразует аудиоволны в видео кадры. Эта способность позволяет ей точно передавать тонкие движения и уникальные особенности, характерные для естественной речи.
Высокое качество видео и выразительность
Согласно результатам исследования, EMO значительно превосходит существующие передовые методы по качеству видео, сохранению идентичности и выразительности. Пользовательское исследование показало, что видео, созданные с помощью EMO, воспринимались как более естественные и эмоциональные, чем аналогичные работы конкурирующих систем.
Реалистичная анимация пения
Кроме разговорных видео, EMO может анимировать поющих портреты, создавая точные формы губ и выразительные черты лица, синхронизированные с вокальными выступлениями. Система может генерировать видео произвольной длины в зависимости от продолжительности входного аудио.
«Экспериментальные результаты показывают, что EMO не только создает убедительные видео с речью, но и анимации пения в различных стилях, значительно превосходя существующие методики по выразительности и реалистичности,» - утверждается в исследовании.
Разработки, представленные EMO, намекают на будущее, в котором персонализированный видеоконтент может легко синтезироваться из одной фотографии и аудиофайла. Тем не менее, остаются этические вопросы касательно возможного злоупотребления такой технологией для подделки или дезинформации. Исследователи стремятся разработать методы детекции синтетического видео для решения этих проблем.