Стартап Synthesia из Лондона, специализирующийся на создании видео с использованием ИИ для предприятий, улучшил свою платформу, введя «экспрессивные аватары».
Начиная с сегодняшнего дня, эти ИИ-аватары повышают возможности традиционных цифровых аватаров, изменяя тон, мимику и язык тела в зависимости от контекста содержания. Этот запуск стал продолжением недавней демонстрации Microsoft своей платформы VASA, которая превращает человеческие фотографии в анимированные видео с говорящими и поющими персонажами. В отличие от VASA, которая остается исследовательским проектом, экспрессивные аватары Synthesia представляют собой реальную технологию, разработанную для помощи предприятиям в создании более реалистичных ИИ-видео для их аудитории.
Инновационный шаг Synthesia в создании ИИ-видео
Основанная в 2017 году исследователями и предпринимателями в области ИИ из Стэнфорда и Кембриджа, Synthesia разработала комплексную платформу, которая объединяет настраиваемые ИИ-голоса и аватары. Пользователи могут создавать видео студийного качества с помощью заранее написанных сценариев или контента, сгенерированного ИИ, что способствовало значительному внедрению технологии в предприятиях. Более 200 000 пользователей создали свыше 18 миллионов видео, хотя ранее аватары не могли эффективно передавать эмоции — цифровые аватары не изменяли свой тон или выражения в реальном времени в зависимости от сценария. С запуском экспрессивных аватаров эта проблема решена.
Согласно данным Synthesia, новые ИИ-аватары способны понимать настроение и контекст текста, изменяя свой тон и выражения соответственно. Они могут передавать широкий спектр эмоций за счет тонких изменений в мимике, моргании и движениях глаз. Например, аватар может улыбнуться, обсуждая радостную тему, или замедлить речь с длительными паузами для серьезного контента.
«Наша цель — не просто создать цифровые рендеры, но и ввести цифровых актеров», — заявил главный технический директор Synthesia Джон Старк в блоге. «Эта технология усиливает реализм цифровых аватаров, стирая границы между виртуальным и реальным».
Техническая основа экспрессивных аватаров
Для достижения понимания нюансов эмоций Synthesia использует модель глубокого обучения EXPRESS-1, подготовленную на обширных текстовых и видеоданных, отражающих реальное общение. «EXPRESS-1 предсказывает движения и мимику в реальном времени, идеально подстраиваясь под нюансы речи и акценты, что обеспечивает исключительно естественные выступления», — объяснил Старк. Новые аватары также обладают улучшенными возможностями синхронизации губ и озвучивания на нескольких языках.
Последствия использования экспрессивных аватаров
Хотя ИИ-аватары с человеческими эмоциями могут привести к потенциальным рискам злоупотреблений, Synthesia сосредоточена на содействии положительным применениям для предприятий, особенно в области коммуникации и обмена знаниями. Например, компании здравоохранения могут использовать экспрессивные аватары для создания более сочувствующих видео для пациентов, а маркетинговые команды могут передавать энтузиазм по поводу нового продукта.
Для содействия ответственному использованию Synthesia пересмотрела свои политики, чтобы ограничить виды контента на своей платформе, и активно инвестирует в раннее обнаружение злоупотреблений и технологии верификации контента, такие как C2PA. В настоящий момент Synthesia имеет 300 сотрудников и сотрудничает с более чем 55 000 бизнесов, включая половину из Fortune 100. Среди клиентов компании находится Zoom, который сообщает о 90% увеличении эффективности в создании видео для продаж и обучения с использованием Synthesia.