O Sistema de IA Inovador da Alibaba, 'EMO', Gera Vídeos Realistas de Conversa e Canto a Partir de Suas Fotos

Home Notícias de IA O Sistema de IA Inovador da Alibaba, 'EMO', Gera Vídeos Realistas de Conversa e Canto a Partir de Suas Fotos

Updated on fevereiro 28 2024

Pesquisadores do Instituto de Computação Inteligente da Alibaba revelaram o “EMO” (Emote Portrait Alive), um sistema de IA inovador capaz de animar uma única foto de retrato para criar vídeos realistas de pessoas falando ou cantando.

Conforme descrito em um artigo de pesquisa disponível no arXiv, o EMO gera movimentos faciais fluidos e expressivos, além de poses de cabeça que se alinham perfeitamente com as nuances da trilha de áudio fornecida. Essa inovação representa um avanço significativo na geração de vídeos de rostos falantes impulsionados por áudio, uma área que tem apresentado desafios para os pesquisadores de IA ao longo dos anos.

“As técnicas tradicionais muitas vezes têm dificuldades em capturar todo o espectro das expressões humanas e a singularidade dos estilos faciais individuais”, explicou o autor principal, Linrui Tian. “Para superar esses desafios, propomos o EMO, uma nova estrutura que utiliza uma abordagem direta de síntese de áudio para vídeo, eliminando a necessidade de modelos 3D ou pontos de referência faciais.”

Conversão Direta de Áudio em Vídeo

O sistema EMO utiliza um modelo de difusão, uma técnica de IA poderosa conhecida por sua capacidade de gerar imagens sintéticas realistas. Os pesquisadores treinaram o EMO com um conjunto de dados de mais de 250 horas de vídeos de pessoas falando, extraídos de discursos, filmes, programas de TV e apresentações musicais.

Ao contrário de métodos anteriores que dependem de modelos faciais 3D ou formas de mistura, o EMO transforma diretamente formas de onda de áudio em quadros de vídeo. Essa capacidade permite captar movimentos sutis e características únicas associadas à fala natural.

Qualidade Superior de Vídeo e Expressividade

Os resultados da pesquisa mostram que o EMO supera significativamente os métodos existentes em qualidade de vídeo, preservação de identidade e expressividade. Um estudo com usuários indicou que os vídeos gerados pelo EMO eram percebidos como mais naturais e emotivos do que aqueles produzidos por sistemas concorrentes.

Animação Realista de Canto

Além de vídeos de conversação, o EMO pode animar retratos cantantes, criando formas de boca precisas e características faciais expressivas que se sincronizam com as performances vocais. O sistema pode gerar vídeos de comprimento arbitrário com base na duração do áudio de entrada.

“Os resultados experimentais mostram que o EMO não apenas produz vídeos de fala convincentes, mas também animações de canto em vários estilos, superando amplamente as metodologias existentes em expressividade e realismo,” afirma a pesquisa.

As inovações apresentadas pelo EMO sugerem um futuro onde o conteúdo de vídeo personalizado pode ser facilmente sintetizado a partir de uma única foto e de um clipe de áudio. No entanto, permanecem preocupações éticas sobre o uso indevido dessa tecnologia para fraudes ou desinformação. Os pesquisadores estão comprometidos em explorar métodos de detecção para vídeos sintéticos a fim de abordar essas questões.

Como o Open Source Está Transformando a Segurança Empresarial: Descubra Como a Startup Filigran Pioneira em Defesa Colaborativa contra Ameaças

A Slice visa simplificar a distribuição e o rastreamento de participação societária para empresas.

Most people like

TeeAI

25.1K

Desperte o poder da impressão personalizada de camisetas com a tecnologia de ponta da TeeAI. Crie camisetas únicas sem esforço e transforme suas ideias criativas em realidade!

impressão de camisetas AI Advertising Assistant

Tweet AI

8.7K

Aumente Vendas e Engajamento no X No mercado competitivo de hoje, melhorar as vendas e aumentar o engajamento do público no X é mais crucial do que nunca. Esta plataforma oferece oportunidades únicas para se conectar com seu público-alvo, impulsionar conversões e construir relacionamentos duradouros. Ao implementar estratégias eficazes personalizadas para maximizar sua presença no X, você pode elevar a visibilidade da sua marca e alcançar resultados notáveis. Pronto para transformar sua abordagem? Vamos explorar como otimizar suas vendas e engajamento no X!

IA AI Reply Assistant

VMock Dashboard

754.1K

Impulsione sua Candidatura com Nossa Plataforma de Aprimoramento No competitivo mercado de trabalho atual, destacar-se é essencial. Nossa inovadora plataforma de aprimoramento de candidaturas foi projetada para ajudá-lo a mostrar suas habilidades, experiências e qualificações de forma eficaz. Com recursos personalizados e orientação especializada, capacitamos você a criar uma aplicação atraente que capture a atenção dos recrutadores. Eleve sua estratégia de busca de emprego e abra novas oportunidades de carreira com nossas ferramentas fáceis de usar hoje mesmo!

melhora de currículos Resume Builder

wizdom.ai

9.3K

Desbloqueando a Inteligência para Todos: Conectando Conhecimento e Acesso Em um mundo onde o conhecimento é poder, nossa missão é democratizar a inteligência. Acreditamos que todos devem ter a oportunidade de acessar informações e insights valiosos, independentemente de sua origem. Ao derrubar barreiras e aprimorar a compreensão, buscamos capacitar indivíduos e comunidades. Junte-se a nós nesta jornada para tornar a inteligência acessível a todos!

Inteligência Artificial AI Analytics Assistant

Find AI tools in YBX