Clonación de Voz: El Futuro de la Generación de Audio con IA
La clonación de voz es un campo en rápida evolución dentro de la IA generativa, que consiste en replicar las características vocales de una persona—como tono, timbre, ritmo, manierismos y pronunciaciones únicas—utilizando tecnología avanzada. Startups como ElevenLabs han atraído financiación significativa para este fin, mientras que Meta Platforms, la empresa matriz de Facebook, Instagram, WhatsApp y Oculus VR, ha presentado su propia herramienta gratuita de clonación de voz llamada Audiobox, aunque con algunas limitaciones.
Presentación de Audiobox
Desarrollado por investigadores del laboratorio Facebook AI Research (FAIR), Audiobox se describe como un "modelo de investigación fundamental para la generación de audio", que se basa en trabajos previos con Voicebox. Según la página web de Audiobox, "puede generar voces y efectos de sonido utilizando una combinación de entradas de voz y textos en lenguaje natural, facilitando la creación de audio personalizado para diversos casos de uso."
Los usuarios pueden simplemente escribir una frase para que una voz clonada la pronuncie o describir un sonido que desean generar. Alternativamente, pueden grabar su propia voz y clonarla con Audiobox.
Una Familia de Modelos Generadores de Audio
Meta ha desarrollado una "familia de modelos", que incluye uno para la imitación del habla y otro para efectos de sonido ambientales como ladridos de perros o sirenas, todos construidos sobre el modelo compartido de aprendizaje auto-supervisado (SSL), Audiobox SSL.
El aprendizaje auto-supervisado es una técnica de aprendizaje profundo donde los algoritmos de IA generan sus propias etiquetas para datos no etiquetados, a diferencia del aprendizaje supervisado que depende de datos pre-etiquetados. El artículo de los investigadores explica su enfoque SSL, enfatizando que "los datos etiquetados no siempre están disponibles o son de alta calidad; por lo tanto, nuestra estrategia es entrenar utilizando audio sin supervisión, como transcripciones o subtítulos."
Los principales modelos de IA generativa, incluido Audiobox, a menudo dependen de datos generados por humanos para su entrenamiento. En este caso, los investigadores de FAIR utilizaron "160K horas de habla (principalmente en inglés), 20K horas de música y 6K horas de muestras de sonido." Los datos de habla abarcan audiolibros, pódcast, conversaciones y grabaciones en diversos entornos acústicos, con hablantes de más de 150 países y más de 200 idiomas principales.
Aunque el artículo de investigación no especifica las fuentes de estos datos, plantea un problema importante: los creadores de contenido y titulares de derechos han expresado preocupación por el uso de material posiblemente protegido por derechos de autor sin el consentimiento adecuado. Meta declaró en un correo electrónico que "Audiobox fue entrenado con conjuntos de datos disponibles públicamente y licenciados," pero no reveló fuentes específicas.
Prueba Audiobox Tú Mismo
Meta ofrece demos interactivas que muestran las capacidades de Audiobox, permitiendo a los usuarios grabar su voz, generar una voz clonada y luego ingresar texto para que esa voz lo repita. En mi experiencia, el audio resultante era sorprendentemente similar a mi propia voz, confirmado por miembros de mi familia que lo escucharon sin saber su origen.
Los usuarios también pueden crear voces completamente nuevas basadas en descripciones de texto como "voz femenina profunda" o "orador masculino de tono agudo de EE. UU.," y generar varios sonidos, como ladridos de perros. Probé esta función con "ladridos de perros" y obtuve dos resultados convincentes.
Sin embargo, hay una advertencia importante: se indica que "esta es una demo de investigación y no puede usarse para fines comerciales." Además, está limitada a usuarios fuera de Illinois y Texas debido a las leyes estatales sobre la recopilación de audio.
Futuro de Audiobox y la Generación de Audio con IA
A diferencia de su reciente herramienta de generación de imágenes Imagine by Meta AI, Audiobox no es de código abierto, lo que contrasta con el compromiso de Meta hacia la apertura, como se evidenció con la familia de modelos de lenguaje Llama 2. Un portavoz de Meta indicó que planean invitar a investigadores e instituciones académicas a solicitar subvenciones destinadas a la investigación sobre seguridad y responsabilidad con Audiobox.
Actualmente, Audiobox no puede ser utilizado con fines comerciales, ni está disponible para residentes de dos de los estados más poblados de EE. UU. Sin embargo, a medida que la tecnología de IA continúa evolucionando rápidamente, podemos anticipar la aparición de versiones comerciales—independientemente de si provienen de Meta u otros desarrolladores.