Pesquisadores do Instituto de Computação Inteligente da Alibaba revelaram o “EMO” (Emote Portrait Alive), um sistema de IA inovador capaz de animar uma única foto de retrato para criar vídeos realistas de pessoas falando ou cantando.
Conforme descrito em um artigo de pesquisa disponível no arXiv, o EMO gera movimentos faciais fluidos e expressivos, além de poses de cabeça que se alinham perfeitamente com as nuances da trilha de áudio fornecida. Essa inovação representa um avanço significativo na geração de vídeos de rostos falantes impulsionados por áudio, uma área que tem apresentado desafios para os pesquisadores de IA ao longo dos anos.
“As técnicas tradicionais muitas vezes têm dificuldades em capturar todo o espectro das expressões humanas e a singularidade dos estilos faciais individuais”, explicou o autor principal, Linrui Tian. “Para superar esses desafios, propomos o EMO, uma nova estrutura que utiliza uma abordagem direta de síntese de áudio para vídeo, eliminando a necessidade de modelos 3D ou pontos de referência faciais.”
Conversão Direta de Áudio em Vídeo
O sistema EMO utiliza um modelo de difusão, uma técnica de IA poderosa conhecida por sua capacidade de gerar imagens sintéticas realistas. Os pesquisadores treinaram o EMO com um conjunto de dados de mais de 250 horas de vídeos de pessoas falando, extraídos de discursos, filmes, programas de TV e apresentações musicais.
Ao contrário de métodos anteriores que dependem de modelos faciais 3D ou formas de mistura, o EMO transforma diretamente formas de onda de áudio em quadros de vídeo. Essa capacidade permite captar movimentos sutis e características únicas associadas à fala natural.
Qualidade Superior de Vídeo e Expressividade
Os resultados da pesquisa mostram que o EMO supera significativamente os métodos existentes em qualidade de vídeo, preservação de identidade e expressividade. Um estudo com usuários indicou que os vídeos gerados pelo EMO eram percebidos como mais naturais e emotivos do que aqueles produzidos por sistemas concorrentes.
Animação Realista de Canto
Além de vídeos de conversação, o EMO pode animar retratos cantantes, criando formas de boca precisas e características faciais expressivas que se sincronizam com as performances vocais. O sistema pode gerar vídeos de comprimento arbitrário com base na duração do áudio de entrada.
“Os resultados experimentais mostram que o EMO não apenas produz vídeos de fala convincentes, mas também animações de canto em vários estilos, superando amplamente as metodologias existentes em expressividade e realismo,” afirma a pesquisa.
As inovações apresentadas pelo EMO sugerem um futuro onde o conteúdo de vídeo personalizado pode ser facilmente sintetizado a partir de uma única foto e de um clipe de áudio. No entanto, permanecem preocupações éticas sobre o uso indevido dessa tecnologia para fraudes ou desinformação. Os pesquisadores estão comprometidos em explorar métodos de detecção para vídeos sintéticos a fim de abordar essas questões.