Microsoft Presenta VASA-1: Un Marco de IA que Da Vida a Retratos Humanos con Voz y Canción

Home Noticias de IA Microsoft Presenta VASA-1: Un Marco de IA que Da Vida a Retratos Humanos con Voz y Canción

Microsoft ha realizado un avance significativo en la generación de contenido impulsado por IA con la introducción de VASA-1, un marco innovador que transforma fotos fijas de personas en videos dinámicos de hablantes y cantantes. Este proyecto marca un cambio notable en el contenido generado por IA, ya que requiere una entrada mínima: solo una imagen estática y un archivo de audio. VASA-1 da vida a estas imágenes, permitiendo una sincronización labial realista, expresiones y movimientos de cabeza.

Enfoque en los Agentes de IA

Microsoft mostró varios ejemplos de las capacidades de VASA-1, incluyendo una impactante interpretación de la Mona Lisa rapeando. Sin embargo, la empresa reconoce los riesgos potenciales de la tecnología deepfake. Aclararon que VASA-1 es actualmente una demostración de investigación, sin planes inmediatos de comercialización.

Dando Vida a Imágenes Estáticas

Las herramientas de IA actuales para contenido de video pueden tener tanto propósitos beneficiosos como perjudiciales. Si bien pueden crear anuncios atractivos, también pueden ser mal utilizadas para generar deepfakes dañinos. Curiosamente, hay usos positivos para la tecnología deepfake; por ejemplo, un artista puede consentir la creación de su imagen digital con fines promocionales. VASA-1 navega esta línea delicada al "generar rostros hablantes realistas de personajes virtuales,” mejorándolos con habilidades visuales afectivas (VAS).

Según Microsoft, el modelo puede tomar una imagen fija de una persona y un archivo de audio de habla para producir un video que sincroniza los movimientos labiales con el audio e incluye una variedad de emociones, sutilezas faciales y movimientos naturales de cabeza. La empresa proporcionó ejemplos que ilustran cómo una única foto puede transformarse en un video de la persona hablando o cantando.

Control del Usuario sobre la Generación de IA

VASA-1 ofrece a los usuarios un control preciso sobre el contenido generado, permitiendo ajustes en las secuencias de movimiento, dirección de la mirada, posición de la cabeza y expresión emocional mediante simples deslizadores. También puede trabajar con varios tipos de contenido, incluyendo imágenes artísticas, audio de canto y habla en otros idiomas.

Futuro de la Implementación de VASA

Aunque las muestras de Microsoft parecen realistas, algunos clips revelan la naturaleza generada por IA, con movimientos que carecen de fluidez. El enfoque produce videos en 512 x 512 píxeles y hasta 45 fotogramas por segundo en procesamiento por lotes offline, soportando 40 fotogramas por segundo en streaming online. Microsoft afirma que VASA-1 supera los métodos existentes basándose en pruebas extensivas con nuevas métricas.

Sin embargo, es crucial reconocer el potencial de mal uso al representar incorrectamente a personas, razón por la cual Microsoft ha decidido no lanzar VASA-1 como un producto comercial o API. La empresa enfatizó que todas las fotos utilizadas en los clips de demostración fueron generadas por IA y que la tecnología está destinada principalmente a crear habilidades visuales afectivas positivas para avatares virtuales de IA, en lugar de contenido engañoso.

A largo plazo, Microsoft imagina que VASA-1 allane el camino para avatares realistas que repliquen movimientos y emociones humanas. Este avance podría mejorar la equidad en la educación, facilitar la accesibilidad para quienes enfrentan desafíos de comunicación y proporcionar compañía o apoyo terapéutico a personas en necesidad.

Meta Enfrenta la Arquitectura Transformer con el Lanzamiento del LLM Megalodon

Llama 3 se lanza con la presentación del nuevo chatbot de inteligencia artificial independiente de Meta.

Most people like

Metaphysic.ai

46.3K

Metaphysic.ai está a la vanguardia del contenido de video generado por IA hiperrealista, ofreciendo visuales impresionantes que redefinen la narración digital.

IA generativa AI Content Generator

DRESSX AI

11.3K

Diseña sin esfuerzo tu atuendo perfecto en segundos con nuestra herramienta digital.

Recreador de IA AI Photo & Image Generator

FlyPix AI

8.9K

Desbloqueando una Inteligencia Espacial Precisa con Soluciones Geoespaciales Impulsadas por IA Descubre cómo las soluciones geoespaciales de vanguardia impulsadas por IA están transformando la inteligencia espacial. Al aprovechar algoritmos avanzados y análisis de datos, estas soluciones ofrecen una precisión y conocimientos incomparables, empoderando a las industrias para tomar decisiones informadas basadas en datos geográficos precisos. Involúcrate con el futuro del análisis espacial y enriquece tu comprensión de las complejidades de nuestro mundo.

Soluciones geoespaciales habilitadas por IA AI Image Recognition

Wenxin Yiyan

20.5M

Descubre el poder de un asociado de IA para mejorar la redacción y generar conversaciones atractivas. Ya sea que estés creando textos de marketing impactantes o buscando un asistente conversacional inteligente, nuestras soluciones de IA están diseñadas para elevar tu comunicación y optimizar tu proceso creativo. ¡Desbloquea nuevas posibilidades con tecnología avanzada al alcance de tu mano!

Generación de contenido con IA Large Language Models (LLMs)

Find AI tools in YBX