Инновационная AI-система Alibaba 'EMO' создает реалистичные видео с речью и пением на основе ваших фотографий.

Home Новости ИИ Инновационная AI-система Alibaba 'EMO' создает реалистичные видео с речью и пением на основе ваших фотографий.

Updated on февраль 28 2024

Исследователи из Института интеллектуальных вычислений Alibaba представили «EMO» (Emote Portrait Alive), инновационную систему ИИ, способную анимировать одно портретное фото для создания реалистичных видео с участием человека, который говорит или поет.

В своем исследовании, опубликованном на arXiv, команда описывает, как EMO генерирует плавные и выразительные движения лица и наклоны головы, точно соответствующие нюансам предоставленной аудиодорожки. Это значительный шаг вперед в области генерации видео «говорящих голов», которая долгое время представляла собой трудноразрешимую задачу для исследователей ИИ.

«Традиционные методы часто не могут captar полное разнообразие человеческих выражений и уникальность индивидуальных черт лица,» - объяснил ведущий автор Линьруй Тянь. «Чтобы преодолеть эти трудности, мы предлагаем EMO, новую структуру, использующую подход прямого синтеза аудио в видео, что устраняет необходимость в 3D моделях или контрольных точках на лице.»

Прямое преобразование аудио в видео

Система EMO использует диффузионную модель — мощную технологию ИИ, известную своей способностью создавать реалистичные синтетические изображения. Исследователи обучили EMO на наборе данных свыше 250 часов видео «говорящих голов», собранных из публичных выступлений, фильмов, телешоу и музыкальных номеров.

В отличие от ранних методов, зависящих от 3D моделей лиц или смешанных форм, EMO напрямую преобразует аудиоволны в видео кадры. Эта способность позволяет ей точно передавать тонкие движения и уникальные особенности, характерные для естественной речи.

Высокое качество видео и выразительность

Согласно результатам исследования, EMO значительно превосходит существующие передовые методы по качеству видео, сохранению идентичности и выразительности. Пользовательское исследование показало, что видео, созданные с помощью EMO, воспринимались как более естественные и эмоциональные, чем аналогичные работы конкурирующих систем.

Реалистичная анимация пения

Кроме разговорных видео, EMO может анимировать поющих портреты, создавая точные формы губ и выразительные черты лица, синхронизированные с вокальными выступлениями. Система может генерировать видео произвольной длины в зависимости от продолжительности входного аудио.

«Экспериментальные результаты показывают, что EMO не только создает убедительные видео с речью, но и анимации пения в различных стилях, значительно превосходя существующие методики по выразительности и реалистичности,» - утверждается в исследовании.

Разработки, представленные EMO, намекают на будущее, в котором персонализированный видеоконтент может легко синтезироваться из одной фотографии и аудиофайла. Тем не менее, остаются этические вопросы касательно возможного злоупотребления такой технологией для подделки или дезинформации. Исследователи стремятся разработать методы детекции синтетического видео для решения этих проблем.

Как открытый исходный код трансформирует безопасность предприятий: узнайте, как стартап Filigran внедряет совместную защиту от угроз.

Slice стремится упростить распределение и учет акций для компаний.

Most people like

Phrasly

706.8K

Повышайте качество контента, созданного ИИ, чтобы он находил отклик у читателей, превращая его в увлекательный и понятный текст.

Обнаружение ИИ AI Detector

Evoto

516.2K

Революционизируйте свою фотографию с нашим редактором фото на основе ИИ нового поколения, созданным для быстрого и качественного обработки изображений. Получите быстрые, высококачественные улучшения, повышающие ваши фотографии до профессионального уровня.

редактирование фотографий AI Image Enhancer

Free 3D Animation

35.6K

Освободите свою креативность и легко создавайте захватывающие 3D-анимации — без необходимости программирования! Независимо от того, являетесь ли вы начинающим аниматором или опытным профессионалом, наши удобные инструменты делают анимацию доступной для всех. Погрузитесь в мир 3D-дизайна и превратите свои идеи в яркие анимации уже сегодня!

3D анимация Other

Deep Swapper

1.4M

Используйте идеальный бесплатный инструмент для обмена лицами на основе ИИ, который обеспечивает качественный и безупречный процесс. Преобразуйте изображения с легкостью и улучшите свой контент с помощью этой инновационной технологии!

ИИ Image to Image

Find AI tools in YBX