Pesquisadores do Google Apresentam 'VLOGGER': Uma Tecnologia de IA que Dão Vida a Fotos Estáticas

Home Notícias de IA Pesquisadores do Google Apresentam 'VLOGGER': Uma Tecnologia de IA que Dão Vida a Fotos Estáticas

Pesquisadores do Google apresentaram um inovador sistema de inteligência artificial chamado VLOGGER, capaz de gerar vídeos realistas de indivíduos falando, gesticulando e se movendo, tudo a partir de uma única fotografia. Essa tecnologia revolucionária utiliza modelos avançados de aprendizado de máquina para criar imagens incrivelmente realistas, oferecendo inúmeras aplicações potenciais, mas também levantando preocupações sobre deepfakes e desinformação.

No artigo de pesquisa intitulado "VLOGGER: Difusão Multimodal para Síntese de Avatar Incorporado," a equipe demonstra como o modelo de IA pode utilizar uma foto de uma pessoa junto com um clipe de áudio para gerar um vídeo no qual o indivíduo fala o áudio, exibindo expressões faciais correspondentes, movimentos de cabeça e gestos com as mãos. Embora os vídeos possam apresentar algumas imperfeições, eles representam um avanço significativo na animação de imagens estáticas.

Revolucionando a Comunicação Sintética

Liderada por Enric Corona no Google Research, a equipe utilizou modelos de difusão — estruturas poderosas de aprendizado de máquina conhecidas por gerar imagens realistas a partir de descrições textuais. Ao adaptar esses modelos para a síntese de vídeo e treiná-los em um extenso novo conjunto de dados, os pesquisadores criaram um sistema que anima fotografias de maneira convincente.

Os autores anotam: "Ao contrário dos métodos anteriores, nossa abordagem não requer treinamento individual, evita a detecção e recorte de rostos, gera imagens completas e aborda uma ampla gama de cenários essenciais para a comunicação humana realista."

Um elemento crucial para o sucesso foi a criação de um grande conjunto de dados chamado MENTOR, que inclui mais de 800.000 identidades diversas e 2.200 horas de vídeo — superando em muito conjuntos de dados anteriores. Essa abrangência permite que o VLOGGER crie vídeos de indivíduos com diferentes etnias, idades, vestimentas, poses e contextos sem viés.

Aplicações Empolgantes e Implicações Éticas

O VLOGGER abre caminho para aplicações intrigantes. A pesquisa destaca a capacidade do sistema de dublar vídeos automaticamente em diferentes idiomas, editando e completando quadros de vídeo, além de criar vídeos completos a partir de uma única imagem.

As aplicações potenciais incluem atores licenciando modelos 3D detalhados de si mesmos para novas atuações, a criação de avatares fotorealistas para realidade virtual (VR) e jogos, e o desenvolvimento de assistentes virtuais e chatbots mais expressivos e envolventes.

O Google enxerga o VLOGGER como um passo em direção a "agentes conversacionais incorporados" que interagem naturalmente com os humanos usando fala, gestos e contato visual. Os autores afirmam que o VLOGGER poderia servir como uma solução autônoma para apresentações, educação, narração, comunicação com baixa largura de banda e até mesmo aprimorar interações apenas textuais entre humanos e computadores.

No entanto, a tecnologia apresenta riscos, especialmente em relação à criação de deepfakes — mídias sintéticas que podem substituir indivíduos em vídeos por imagens de outras pessoas. À medida que vídeos gerados por IA se tornam mais realistas e acessíveis, os desafios relacionados à desinformação e à manipulação digital podem aumentar.

Um Novo Horizonte na Inovação em IA

Apesar de suas impressionantes capacidades, o VLOGGER tem limitações. Os vídeos gerados tendem a ser breves e apresentam fundos estáticos, e as pessoas carecem de movimento em um espaço 3D. Embora os gestos e padrões de fala pareçam realistas, ainda não são indistinguíveis dos humanos reais.

Ainda assim, o VLOGGER representa um avanço significativo. "avaliamos o VLOGGER em três benchmarks diferentes, demonstrando que nosso modelo se destaca em qualidade de imagem, preservação de identidade e consistência temporal", observam os autores.

À medida que a mídia gerada por IA continua a evoluir, ela pode em breve se tornar comum, levando a uma realidade em que distinguir entre indivíduos reais e representações geradas por IA se torna cada vez mais desafiador. O VLOGGER oferece um vislumbre desse futuro, mostrando o rápido progresso na inteligência artificial enquanto destaca as crescentes dificuldades em diferenciar autenticidade de artificialidade.

Estúdios de Jogos se Adaptam e Prosperam em um Mercado em Mudança | Unity

Bancos de Dados Vetoriais: Navegando na Síndrome do Objeto Brilhante e a Busca pelo Ilustre Unicórnio

Most people like

Lindo

Lindo é uma plataforma de criação de sites impulsionada por inteligência artificial, projetada especialmente para empresas, que simplifica o processo de criação de sites sem a necessidade de conhecimentos em programação.

construtor de sites AI App Builder

InterSub

24.8K

Amplie seu vocabulário e eleve suas habilidades linguísticas de forma simples com as legendas interativas da InterSub enquanto aprecia vídeos envolventes.

aprendizado de idiomas Other

Deep Realms

127.5K

Descubra o fascinante mundo das histórias interativas geradas por IA. Essas narrativas inovadoras misturam criatividade e tecnologia, permitindo que os leitores se envolvam com enredos de maneira imersiva e personalizada. Mergulhe em uma experiência narrativa onde suas escolhas moldam a jornada, criando aventuras únicas a cada interação. Junte-se ao futuro da literatura e explore as infinitas possibilidades da narrativa interativa impulsionada pela inteligência artificial.

Geração de texto Large Language Models (LLMs)

BLOOM | Intimate Audio Stories & Chat

239.8K

Descubra um santuário para o bem-estar sensual e a exploração pessoal.

bem-estar sensual AI Advertising Assistant

Find AI tools in YBX