Meta lanza Audiobox: una herramienta de IA que clona voces y crea paisajes sonoros.

Home Noticias de IA Meta lanza Audiobox: una herramienta de IA que clona voces y crea paisajes sonoros.

Updated on diciembre 11 2023

Clonación de Voz: El Futuro de la Generación de Audio con IA

La clonación de voz es un campo en rápida evolución dentro de la IA generativa, que consiste en replicar las características vocales de una persona—como tono, timbre, ritmo, manierismos y pronunciaciones únicas—utilizando tecnología avanzada. Startups como ElevenLabs han atraído financiación significativa para este fin, mientras que Meta Platforms, la empresa matriz de Facebook, Instagram, WhatsApp y Oculus VR, ha presentado su propia herramienta gratuita de clonación de voz llamada Audiobox, aunque con algunas limitaciones.

Presentación de Audiobox

Desarrollado por investigadores del laboratorio Facebook AI Research (FAIR), Audiobox se describe como un "modelo de investigación fundamental para la generación de audio", que se basa en trabajos previos con Voicebox. Según la página web de Audiobox, "puede generar voces y efectos de sonido utilizando una combinación de entradas de voz y textos en lenguaje natural, facilitando la creación de audio personalizado para diversos casos de uso."

Los usuarios pueden simplemente escribir una frase para que una voz clonada la pronuncie o describir un sonido que desean generar. Alternativamente, pueden grabar su propia voz y clonarla con Audiobox.

Una Familia de Modelos Generadores de Audio

Meta ha desarrollado una "familia de modelos", que incluye uno para la imitación del habla y otro para efectos de sonido ambientales como ladridos de perros o sirenas, todos construidos sobre el modelo compartido de aprendizaje auto-supervisado (SSL), Audiobox SSL.

El aprendizaje auto-supervisado es una técnica de aprendizaje profundo donde los algoritmos de IA generan sus propias etiquetas para datos no etiquetados, a diferencia del aprendizaje supervisado que depende de datos pre-etiquetados. El artículo de los investigadores explica su enfoque SSL, enfatizando que "los datos etiquetados no siempre están disponibles o son de alta calidad; por lo tanto, nuestra estrategia es entrenar utilizando audio sin supervisión, como transcripciones o subtítulos."

Los principales modelos de IA generativa, incluido Audiobox, a menudo dependen de datos generados por humanos para su entrenamiento. En este caso, los investigadores de FAIR utilizaron "160K horas de habla (principalmente en inglés), 20K horas de música y 6K horas de muestras de sonido." Los datos de habla abarcan audiolibros, pódcast, conversaciones y grabaciones en diversos entornos acústicos, con hablantes de más de 150 países y más de 200 idiomas principales.

Aunque el artículo de investigación no especifica las fuentes de estos datos, plantea un problema importante: los creadores de contenido y titulares de derechos han expresado preocupación por el uso de material posiblemente protegido por derechos de autor sin el consentimiento adecuado. Meta declaró en un correo electrónico que "Audiobox fue entrenado con conjuntos de datos disponibles públicamente y licenciados," pero no reveló fuentes específicas.

Prueba Audiobox Tú Mismo

Meta ofrece demos interactivas que muestran las capacidades de Audiobox, permitiendo a los usuarios grabar su voz, generar una voz clonada y luego ingresar texto para que esa voz lo repita. En mi experiencia, el audio resultante era sorprendentemente similar a mi propia voz, confirmado por miembros de mi familia que lo escucharon sin saber su origen.

Los usuarios también pueden crear voces completamente nuevas basadas en descripciones de texto como "voz femenina profunda" o "orador masculino de tono agudo de EE. UU.," y generar varios sonidos, como ladridos de perros. Probé esta función con "ladridos de perros" y obtuve dos resultados convincentes.

Sin embargo, hay una advertencia importante: se indica que "esta es una demo de investigación y no puede usarse para fines comerciales." Además, está limitada a usuarios fuera de Illinois y Texas debido a las leyes estatales sobre la recopilación de audio.

Futuro de Audiobox y la Generación de Audio con IA

A diferencia de su reciente herramienta de generación de imágenes Imagine by Meta AI, Audiobox no es de código abierto, lo que contrasta con el compromiso de Meta hacia la apertura, como se evidenció con la familia de modelos de lenguaje Llama 2. Un portavoz de Meta indicó que planean invitar a investigadores e instituciones académicas a solicitar subvenciones destinadas a la investigación sobre seguridad y responsabilidad con Audiobox.

Actualmente, Audiobox no puede ser utilizado con fines comerciales, ni está disponible para residentes de dos de los estados más poblados de EE. UU. Sin embargo, a medida que la tecnología de IA continúa evolucionando rápidamente, podemos anticipar la aparición de versiones comerciales—independientemente de si provienen de Meta u otros desarrolladores.

Navegando el Panorama de la IA: Cómo Glasswing AI Palette Orienta a las Startups Más Allá de las Palabras de Moda

Anthropic Impulsa Iniciativa Contra el Sesgo y la Discriminación en la IA con Investigación Innovadora

Most people like

Mathful

193.8K

Mejora tus habilidades en matemáticas con nuestro solucionador de problemas de matemáticas con IA, diseñado para ofrecer soluciones rápidas y precisas para tus tareas.

Resolutor de matemáticas de IA Homework Helper

MachineTranslation.com

693.6K

Resumen: MachineTranslation.com es una plataforma en línea de vanguardia que aprovecha la inteligencia artificial y el aprendizaje automático para mejorar la comunicación global con soluciones de traducción automática accesibles y confiables.

traducción automática Translate

NeuronWriter

247.3K

NeuronWriter mejora el contenido del sitio web mediante avanzadas estrategias de SEO semántico, elevando las posiciones en los motores de búsqueda y mejorando la visibilidad en línea.

optimización de contenido AI Content Generator

Pseudoface

38.9K

Descubre la intersección entre anonimato y promoción con pseudoccaras generadas por IA. Estas innovadoras representaciones digitales no solo protegen identidades, sino que también mejoran las estrategias de marca en el ámbito online.

Filtro de IA AI Avatar Generator

Find AI tools in YBX