En seulement deux ans après sa création par d'anciens employés de Google et de Palantir, ElevenLabs, une startup spécialisée dans la voix AI, a atteint le statut de licorne. La société a récemment annoncé une levée de fonds de 80 millions de dollars en série B, multipliant sa valorisation par dix pour atteindre 1,1 milliard de dollars.
Cet investissement est co-dirigé par des investisseurs existants tels qu'Andreessen Horowitz (a16z), l'ancien PDG de GitHub Nat Friedman et l'ancien responsable de l'IA chez Apple Daniel Gross, avec des contributions de Sequoia Capital et SV Angel. Ce tour de table fait suite à une levée de 19 millions de dollars en série A six mois plus tôt, qui avait évalué ElevenLabs à environ 100 millions de dollars.
Pionnier de la Technologie de Voix AI
ElevenLabs se spécialise dans l'utilisation de l'apprentissage automatique pour le clonage et la synthèse vocale dans plusieurs langues. Le capital récemment acquis permettra d'améliorer ses recherches et son offre de produits. La société a également introduit plusieurs nouvelles fonctionnalités, dont un outil de doublage pour les longs métrages et un marché où les utilisateurs peuvent vendre leurs voix clonées.
Rendre le Contenu Universellement Accessible
Étant donné la grande diversité des dialectes et des langues, la production de contenu localisé s'est traditionnellement concentrée sur les langues dominantes, reposant souvent sur un doublage manuel ne rendant pas fidèlement le contenu original. Les fondateurs Piotr Dabkowski et Mati Staniszewski, tous deux polonais, ont constaté les défis d'un doublage de mauvaise qualité, ce qui les a motivés à créer ElevenLabs. Leur mission est de démocratiser l'accès au contenu grâce à l'IA.
Depuis son lancement en 2022, ElevenLabs a franchi d'importantes étapes. Initialement reconnue pour son modèle de synthèse vocale en anglais au son naturel, la société a depuis élargi ses capacités avec les versions multilingues 1 et 2 d'Eleven, prenant désormais en charge plusieurs langues, dont le polonais, l'allemand, l'espagnol, le français, l'italien, le portugais et l'hindi. La fonctionnalité Voice Lab permet aux utilisateurs de cloner leur voix ou de générer des voix synthétiques, transformant le texte en contenu audio.
"La technologie d'ElevenLabs utilise la conscience contextuelle et une haute compression pour fournir une parole ultra-réaliste. Notre modèle propriétaire comprend les relations entre les mots et ajuste la livraison en fonction du contexte, prédictivement et dynamiquement en fonction de milliers de caractéristiques vocales," a expliqué Staniszewski.
Une Base d'Utilisateurs en Croissance
En quelques mois, ElevenLabs a attiré plus d'un million d'utilisateurs. Le lancement d'AI Dubbing, un outil de conversion de la parole, permet aux créateurs de contenu de traduire audio et vidéo en 29 langues tout en conservant la voix et les émotions du locuteur original. Notamment, 41 % des entreprises du Fortune 500 figurent parmi ses clients, y compris de grands éditeurs comme Storytel, The Washington Post et TheSoul Publishing.
"Actuellement, nous avons établi plus de 100 partenariats B2B. Les voix AI ont de nombreuses applications, allant de l'amélioration des expériences utilisateur à l'élargissement de l'accès à l'éducation," a noté Staniszewski.
Présentation du Studio de Doublage
Pour innover encore davantage sa gamme de produits, ElevenLabs déploie le flux de travail Dubbing Studio, améliorant l'outil AI Dubbing. Ce nouveau flux fournit aux professionnels des outils robustes pour doubler des longs métrages dans diverses langues tout en générant et en éditant des transcriptions, traductions et codes temporels. Cependant, il ne comprend pas encore le syncro labial, ce qui signifie que les mouvements des lèvres dans la vidéo originale restent inchangés.
Nouveaux Marchés et Fonctionnalités d'Accessibilité
De plus, ElevenLabs introduit une application d'accessibilité qui transforme le texte ou les URL en audio et une Bibliothèque de Voix permettant aux utilisateurs de monétiser leurs voix clonées par l'IA. Les utilisateurs peuvent définir les termes de disponibilité et de compensation, bien que le partage nécessite un processus de vérification en plusieurs étapes pour garantir l'authenticité.
"La vérification de la voix implique un processus captcha pour confirmer que la voix correspond aux échantillons d'entraînement, soutenue par notre équipe de modération," a déclaré le PDG.
À mesure que ces fonctionnalités deviendront disponibles dans les semaines à venir, ElevenLabs vise à attirer des utilisateurs de divers secteurs. Avec ce financement, portant son total à 101 millions de dollars, la société prévoit de renforcer sa recherche sur la technologie de voix AI, d'améliorer son infrastructure et de développer des produits ciblés, tout en mettant en œuvre des contrôles de sécurité robustes, y compris un classificateur audio AI.
"Au cours des prochaines années, nous visons à nous établir comme le leader mondial de la recherche et du déploiement de produits en matière de voix AI," a déclaré Staniszewski.
Les concurrents dans le domaine de la génération de voix AI incluent MURF.AI, Play.ht et WellSaid Labs. Selon Market US, le marché mondial de ces outils était évalué à 1,2 milliard de dollars en 2022 et devrait approcher 5 milliards de dollars d'ici 2032, avec un taux de croissance annuel composé (TCAC) d'environ 15,4 %.