Las startups como ElevenLabs han invertido millones en desarrollar algoritmos y software de inteligencia artificial para la clonación de voz, que crean programas de audio que replican las voces de los usuarios. Ahora, investigadores del Instituto Tecnológico de Massachusetts (MIT), de la Universidad Tsinghua en Pekín y miembros de la startup de IA MyShell presentan OpenVoice, una solución de clonación de voz de código abierto que ofrece resultados casi instantáneos y controles granulares no disponibles en otras plataformas.
"Clona voces con una precisión sin igual, ajustando tono, emoción, acento, ritmo, pausas e entonación a partir de solo un pequeño clip de audio," declaró MyShell en una reciente publicación en X. La compañía compartió un enlace a su trabajo de investigación que detalla el desarrollo de OpenVoice, junto con puntos de acceso para que los usuarios lo prueben: la aplicación web de MyShell (se requiere cuenta de usuario) y HuggingFace (acceso público sin cuenta).
En un correo electrónico, el investigador principal Zengyi Qin del MIT y MyShell enfatizó el objetivo del proyecto: "MyShell busca beneficiar a la comunidad de investigación. OpenVoice es solo el comienzo. En el futuro, proporcionaremos subvenciones, conjuntos de datos y potencia de computación para apoyar la investigación de código abierto. Nuestra misión central es 'IA para Todos'.”
Sobre la motivación detrás de OpenVoice, Qin explicó: “El lenguaje, la visión y la voz son tres modalidades clave para la futura Inteligencia Artificial General (AGI). Si bien existen varios modelos de código abierto para lenguaje y visión, faltaba un modelo poderoso y instantáneo de clonación de voz para personalización, lo que nos llevó a emprender este proyecto.”
Usando OpenVoice
En pruebas informales usando HuggingFace, generé rápidamente una réplica convincente—aunque algo robótica—de mi voz utilizando discursos aleatorios. A diferencia de otras aplicaciones de clonación de voz, OpenVoice me permitió hablar libremente sin adherirme a un guion específico. En solo unos segundos, tenía un clon de voz que leía con precisión mi texto. Además, podía ajustar el "estilo" del clon entre diferentes preajustes emocionales, como alegre, triste o enojado, cambiando efectivamente el tono. Aquí tienes un muestra de mi clon de voz usando OpenVoice configurado en un tono "amigable".
Cómo se Creó OpenVoice
Los creadores de OpenVoice—Qin, Wenliang Zhao y Xumin Yu de la Universidad Tsinghua, y Xin Sun de MyShell—esbozaron su método en su trabajo de investigación. OpenVoice consiste en dos modelos de IA clave: un modelo de texto a voz (TTS) y un convertidor de tono.
El modelo TTS gestiona los parámetros de estilo y lenguajes, entrenado con 30,000 oraciones de dos hablantes de inglés (con acentos americano y británico), un hablante de chino y uno de japonés, cada uno etiquetado con emociones específicas. Aprendió matices como la entonación, ritmo y pausas. El convertidor de tono fue entrenado con más de 300,000 muestras de audio de más de 20,000 hablantes. El audio del lenguaje hablado se convierte en fonemas—sonidos distintos que diferencian palabras—y se representa como incrustaciones vectoriales.
Al utilizar un "hablante base" para el modelo TTS, en combinación con la información de tono del input del usuario, estos modelos pueden replicar la voz del usuario y adaptarse a su expresión emocional. El diagrama en la investigación de OpenVoice ilustra cómo se integran estos modelos. A pesar de la simplicidad conceptual, este método es eficiente y requiere significativamente menos recursos de computación que competidores como Voicebox de Meta.
Qin compartió: "Nuestro objetivo era desarrollar el modelo de clonación de voz instantánea más flexible. Esta flexibilidad significa control sobre estilos, emociones, acentos, y adaptabilidad a cualquier idioma. Anteriormente, tal funcionalidad integral era inalcanzable debido a su complejidad. A través de un proceso de tubería desacoplada, logramos resultados efectivos con simplicidad."
Detrás de OpenVoice
MyShell, establecida en 2023 con una ronda inicial de $5.6 millones liderada por INCE Capital junto con contribuciones de Folius Ventures, Hashkey Capital, SevenX Ventures, TSVC y OP Crypto, ya ha atraído a más de 400,000 usuarios, según informó The SaaS News. Mientras investigaba, observé más de 61,000 usuarios en su servidor de Discord.
MyShell se describe como una "plataforma descentralizada y integral para descubrir, crear y mantener aplicaciones nativas de IA." Además de OpenVoice, su aplicación web presenta varios personajes y bots de IA basados en texto con personalidades distintas, similar a Character.AI, e incluye herramientas como un creador de GIFs animados y RPGs generados por usuarios basados en franquicias populares.
En cuanto a la monetización, MyShell cobra una suscripción mensual para los usuarios de su aplicación web y para los creadores de bots de terceros que deseen promocionar sus productos dentro de la app. También cobran por datos de entrenamiento de IA.