A Microsoft apresentou o VASA-1: uma estrutura de IA que dá vida a retratos humanos com voz e música.

Home Notícias de IA A Microsoft apresentou o VASA-1: uma estrutura de IA que dá vida a retratos humanos com voz e música.

A Microsoft fez um avanço significativo na geração de conteúdo impulsionada por IA com a introdução do VASA-1, uma estrutura inovadora que transforma fotografias estáticas de rostos humanos em vídeos dinâmicos de fala e canto. Este projeto representa uma mudança notável na criação de conteúdo gerado por IA, exigindo mínima entrada: apenas uma imagem fixa e um arquivo de áudio. O VASA-1 dá vida a essas imagens, permitindo sincronização labial realista, expressões e movimentos de cabeça.

Foco nos Agentes de IA

A Microsoft exibiu vários exemplos das capacidades do VASA-1, incluindo uma impressionante versão da Mona Lisa cantando rap. No entanto, a empresa reconhece os riscos potenciais da tecnologia deepfake. Eles esclareceram que o VASA-1 é, por enquanto, uma demonstração de pesquisa, sem planos imediatos de comercialização.

Dando Vida a Imagens Estáticas

As ferramentas de IA atuais para conteúdo em vídeo podem ter propósitos benéficos ou nocivos. Embora consigam criar anúncios envolventes, também podem ser mal utilizadas para produzir deepfakes prejudiciais. Curiosamente, existem usos positivos para a tecnologia deepfake; por exemplo, um artista pode consentir em ter sua aparência digital criada para fins promocionais. O VASA-1 navega por essa linha delicada ao “gerar rostos falantes realistas de personagens virtuais,” aprimorando-os com habilidades afetivas visuais (VAS).

De acordo com a Microsoft, o modelo pode pegar uma imagem fixa de uma pessoa e um arquivo de áudio de fala para produzir um vídeo que sincroniza os movimentos labiais com o áudio, incluindo uma gama de emoções, sutilezas faciais e movimentos de cabeça naturais. A empresa forneceu exemplos de como uma única fotografia pode ser transformada em um vídeo da pessoa falando ou cantando.

“As inovações principais incluem um modelo holístico de dinâmica facial e geração de movimento da cabeça que opera em um espaço latente facial, juntamente com a criação de um espaço latente facial expressivo e desencadeado usando vídeos,” explicaram os pesquisadores no site da empresa.

Controle do Usuário sobre a Geração de IA

O VASA-1 oferece aos usuários controle detalhado sobre o conteúdo gerado, permitindo ajustes em sequências de movimento, direção dos olhos, posição da cabeça e expressão emocional por meio de simples deslizadores. Ele também pode trabalhar com diversos tipos de conteúdo, incluindo imagens artísticas, áudios de canto e falas em idiomas não ingleses.

Futuro da Implementação do VASA

Embora os exemplos da Microsoft pareçam realistas, alguns clipes revelam sua natureza gerada por IA, com movimentos que carecem de fluidez. A abordagem produz vídeos em 512 x 512 pixels e até 45 quadros por segundo em processamento offline, suportando 40 quadros por segundo em streaming online. A Microsoft afirma que o VASA-1 supera os métodos existentes com base em testes extensivos com novas métricas.

No entanto, é crucial reconhecer o potencial de uso indevido para distorcer a imagem de indivíduos, razão pela qual a Microsoft optou por não lançar o VASA-1 como um produto comercial ou API. A empresa enfatizou que todas as fotografias usadas nos clipes de demonstração foram geradas por IA e que a tecnologia é voltada principalmente para criar habilidades visuais afetivas positivas para avatares virtuais de IA, em vez de conteúdos enganosos.

A longo prazo, a Microsoft enxerga o VASA-1 como um caminho para avatares realistas que replicam movimentos e emoções humanas. Esse avanço poderia promover a equidade educacional, melhorar a acessibilidade para aqueles com desafios de comunicação e oferecer companhia ou apoio terapêutico para indivíduos em necessidade.

Meta Lança Megalodon LLM, Desafiando a Arquitetura Transformer

Llama 3 Lança o Novo Chatbot Autônomo de IA da Meta

Most people like

OpenL - Amazing Translator, powered by AI

1.2M

OpenL é uma ferramenta de tradução avançada impulsionada por IA, projetada para facilitar a tradução de textos entre idiomas. Experimente uma comunicação aprimorada com nossa solução inovadora, que derruba barreiras linguísticas e conecta pessoas em todo o mundo.

IA Translate

Katalist

69.4K

Crie facilmente histórias visuais cativantes.

Narrativa com IA AI Art Generator

Sivi AI - Generate Instant Designs

61.8K

Sivi é uma ferramenta de IA avançada que transforma rapidamente texto em impressionantes designs gráficos, tornando mais fácil do que nunca dar vida às suas visões criativas.

Ferramenta de design de IA AI Ad Generator

Lawdeck

8.8K

Desbloqueie o potencial da criação e busca de documentos legais impulsionadas por IA. Descubra como tecnologias avançadas de inteligência artificial agilizam o processo de redação e melhoram sua capacidade de localizar rapidamente documentos legais essenciais. Transforme sua prática jurídica com ferramentas eficientes projetadas para simplificar tarefas complexas e melhorar a precisão nos fluxos de trabalho legais. Otimize suas operações jurídicas hoje com soluções de IA de ponta.

Automação de documentos legais Legal Assistant

Find AI tools in YBX