En solo dos años desde su fundación por ex empleados de Google y Palantir, ElevenLabs, una startup de voz con IA, ha alcanzado el estatus de unicornio. La empresa anunció recientemente una ronda de financiación Serie B de 80 millones de dólares, que multiplica por diez su valoración a 1.1 mil millones de dólares.
Esta inversión es co-liderada por el respaldo existente de Andreessen Horowitz (a16z), el ex CEO de GitHub Nat Friedman y el ex líder de IA de Apple Daniel Gross, junto con aportes de Sequoia Capital y SV Angel. Esta ronda sigue a una ronda Serie A de 19 millones de dólares seis meses antes, que valoró a ElevenLabs en aproximadamente 100 millones de dólares.
Pioneros en Tecnología de Voz IA
ElevenLabs se especializa en el uso de aprendizaje automático para la clonación y síntesis de voz en múltiples idiomas. El capital adquirido mejorará su investigación y ofertas de productos. La empresa también ha presentado varias nuevas características, incluyendo una herramienta de doblaje para películas de larga duración y un mercado donde los usuarios pueden vender sus voces clonadas.
Haciendo el Contenido Universalmente Accesible
Dado que los dialectos y lenguas varían ampliamente, la producción de contenido localizado ha estado tradicionalmente centrada en idiomas principales, dependiendo a menudo del doblaje manual que no refleja fielmente el contenido original. Los fundadores Piotr Dabkowski y Mati Staniszewski, ambos de Polonia, presenciaron los desafíos del mal doblaje, lo que los motivó a crear ElevenLabs. Su misión es democratizar el acceso al contenido aprovechando la IA.
Desde su lanzamiento en 2022, ElevenLabs ha alcanzado hitos significativos. Inicialmente reconocido por su modelo de texto a voz en inglés de sonido natural, ha ampliado sus capacidades con Eleven Multilingual versiones 1 y 2, que ahora soportan múltiples idiomas, incluyendo polaco, alemán, español, francés, italiano, portugués e hindi. La función Voice Lab permite a los usuarios clonar sus voces o generar voces sintéticas, transformando texto en contenido de audio.
“La tecnología de ElevenLabs utiliza la conciencia del contexto y una alta compresión para ofrecer un habla ultra-realista. Nuestro modelo propietario entiende las relaciones entre palabras y ajusta la entrega según el contexto, prediciendo dinámicamente miles de características de voz,” explicó Staniszewski.
Una Base de Usuarios en Crecimiento
En unos pocos meses, ElevenLabs atrajo a más de un millón de usuarios. El lanzamiento de AI Dubbing, una herramienta de conversión de voz a voz, permite a los creadores de contenido traducir audio y video en 29 idiomas, manteniendo la voz y las emociones del hablante original. Cabe destacar que el 41% de las empresas Fortune 500 forman parte de su clientela, incluyendo editores prominentes como Storytel, The Washington Post y TheSoul Publishing.
“Actualmente, hemos establecido más de 100 asociaciones B2B. Las voces de IA tienen amplias aplicaciones, desde mejorar las experiencias de la audiencia hasta ampliar el acceso educativo,” comentó Staniszewski.
Presentando el Estudio de Doblaje
Para seguir innovando en su suite de productos, ElevenLabs está lanzando el flujo de trabajo del Estudio de Doblaje, mejorando la herramienta AI Dubbing. Este nuevo flujo de trabajo proporciona a los profesionales herramientas robustas para doblar películas de larga duración en varios idiomas, generando y editando transcripciones, traducciones y códigos de tiempo. Sin embargo, actualmente no incluye sincronización de labios, lo que significa que los movimientos labiales en el video original permanecen sin cambios.
Nuevos Mercados y Características de Accesibilidad
Además, ElevenLabs está introduciendo una aplicación de accesibilidad que transforma texto o URL en audio y una Biblioteca de Voces que permite a los usuarios monetizar sus voces clonadas con IA. Los usuarios pueden establecer términos para disponibilidad y compensación, aunque compartir requiere un proceso de verificación de múltiples pasos para garantizar autenticidad.
“La verificación de voz implica un proceso de captcha para confirmar que la voz coincide con muestras de entrenamiento, respaldada por nuestro equipo de moderación,” comentó el CEO.
A medida que estas características se estén disponibles en las próximas semanas, ElevenLabs busca atraer usuarios de diversos sectores. Con esta financiación—que eleva su total a 101 millones de dólares—la empresa planea fortalecer su investigación en tecnología de voz IA, mejorar su infraestructura y desarrollar productos específicos, todo mientras implementa robustos controles de seguridad, incluyendo un clasificador de audio IA.
“En los próximos años, aspiramos a establecernos como líderes globales en investigación y despliegue de productos de voz IA,” declaró Staniszewski.
Los competidores en el espacio de generación de voz IA incluyen MURF.AI, Play.ht y WellSaid Labs. Según Market US, el mercado global para estas herramientas estaba valorado en 1.2 mil millones de dólares en 2022 y se proyecta que se acerque a 5 mil millones de dólares para 2032, reflejando una tasa de crecimiento anual compuesta (CAGR) de aproximadamente 15.4%.