Hoy, Camb AI, una startup con sede en Dubái especializada en tecnologías de localización de contenido impulsadas por IA, presentó Mars5, un avanzado modelo de IA para clonación de voz. A diferencia de modelos como los de ElevenLabs, que generan réplicas digitales de voz, Mars5 destaca por su realismo inigualable. Según muestras iniciales de la empresa, Mars5 no solo imita la voz original, sino que también captura elementos prosódicos complejos como el ritmo, la emoción y la entonación.
Camb AI soporta casi tres veces más idiomas que ElevenLabs, ofreciendo más de 140 lenguas, incluidas algunas menos habladas, como el islandés y el swahili, mientras que ElevenLabs solo dispone de 36. La versión específica en inglés de código abierto ya está disponible en GitHub, mientras que el soporte más amplio de idiomas se puede acceder a través del Studio de Camb AI.
“El nivel de prosodia y realismo que Mars5 logra con solo unos segundos de entrada es sin precedentes. Esto marca un momento revolucionario en la tecnología del habla,” comentó Akshat Prakash, cofundador y CTO.
Integración de Clonación de Voz y Texto a Voz
Tradicionalmente, la clonación de voz y el texto a voz son procesos distintos: la primera crea una voz sintética a partir de muestras de audio, mientras que la segunda utiliza esa voz para leer textos. Sin embargo, Mars5 integra ambas capacidades en una única plataforma. Los usuarios simplemente cargan un archivo de audio, que dura entre unos pocos segundos y un minuto, y proporcionan el texto a sintetizar. El modelo analiza el audio para replicar la voz, el estilo, la emoción y el significado del hablante, transformando el texto en un discurso natural.
Camb AI afirma que Mars5 captura hábilmente una amplia gama de tonos emocionales, abordando situaciones de habla complejas como frustración, comandos, tranquilidad o entusiasmo. Esta versatilidad convierte a Mars5 en la herramienta ideal para contenidos tradicionalmente desafiantes, como narraciones deportivas, películas y anime.
Para lograr este nivel de prosodia, Mars5 combina un modelo autoregresivo de estilo Mistral con aproximadamente 750 millones de parámetros y un innovador modelo no autoregresivo de difusión multinomial con alrededor de 450 millones de parámetros, utilizando tokens de encodec a 6 kbps. “El modelo AR predice los valores básicos del libro de códigos para las características de encodec, mientras que el modelo NAR refina estas predicciones, ‘pintando’ las entradas restantes del libro de códigos. Este enfoque utiliza un proceso de difusión para mejorar la precisión,” explicó Prakash.
Rendimiento en Comparación con Otros Modelos
Aunque los datos específicos de referencia aún están pendientes, las pruebas iniciales sugieren que Mars5 supera a populares modelos de síntesis de voz, incluidos Metavoice y ElevenLabs, produciendo resultados que a menudo se asemejan más a la voz original que sus competidores. “A pesar de que ElevenLabs ha entrenado con un conjunto de datos significativamente más grande de más de 500,000 horas, nuestro diseño de modelo captura mejor las sutilezas del habla. A medida que ampliamos nuestros conjuntos de datos y entrenamos aún más a Mars5, liberando actualizaciones en GitHub, anticipamos mejoras aún mayores,” añadió Prakash.
Camb AI también se prepara para lanzar otro modelo de código abierto llamado Boli, diseñado para traducciones que comprenden el contexto, garantizan precisión gramatical y capturan matices coloquiales. “Boli supera a las herramientas de traducción tradicionales como Google Translate al ofrecer traducciones matizadas y culturalmente relevantes, especialmente para lenguas con pocos recursos. Los comentarios sugieren que Boli supera significativamente a herramientas convencionales, incluidos modelos generativos avanzados como ChatGPT,” afirmó Prakash.
Actualmente, tanto Mars5 como Boli soportan 140 idiomas en la plataforma propietaria de Camb, Camb Studio, y la empresa ofrece estas capacidades como APIs para empresas, pymes y desarrolladores. Camb AI colabora con Major League Soccer, Tennis Australia y Maple Leaf Sports & Entertainment, así como con destacados estudios de cine y música y diversas agencias gubernamentales.
Cabe destacar que Camb AI hizo historia al realizar el doblaje en vivo de un partido de Major League Soccer en cuatro idiomas simultáneamente durante más de dos horas, así como al traducir la conferencia post-partido del Abierto de Australia a múltiples lenguas y convertir el thriller psicológico “Three” del árabe al mandarín.