La fonctionnalité "cliquez ici pour écouter cet article" en haut de certaines pages web est précieuse pour les personnes ayant des déficiences visuelles, des difficultés de lecture, ainsi que pour celles qui manquent de temps. Cette semaine, ElevenLabs, une startup pionnière dans le domaine de l'IA vocale, a lancé Audio Native, un lecteur audio innovant qui narre automatiquement le contenu des pages web grâce à la technologie avancée de synthèse vocale de l'entreprise.
De plus, ElevenLabs a présenté ElevenLabs Reader, offrant une narration dans 11 voix différentes pour les pages web et les documents. Leurs modèles vocaux prennent en charge 29 langues et peuvent même doubler des films en intégralité et transformer des textes en paroles de chansons. Audio Native est accessible au niveau "créateur" pour 11 $ par mois et comprend des métriques intégrées ainsi qu'un tableau de bord pour suivre l'engagement du public. Sur sa page X (anciennement Twitter), ElevenLabs a mis en avant des sites utilisant sa technologie, tels que son blog, un guide IA pour le SEO de bensbites.com et un article de novembre 2023 du New Yorker intitulé « Toutes les menaces à la sécurité nationale de l'Amérique ne se trouvent pas à l'étranger ». Des médias établis comme The Atlantic et The New York Times ont également adopté la technologie d'ElevenLabs. “C'est personnalisable, facile à configurer et améliore l'engagement des lecteurs tout en rendant votre contenu plus accessible à un public mondial,” a déclaré Sam Sklar d'ElevenLabs dans un article de blog.
Intégration d'Audio pour les Sites Web
Avec Audio Native, les utilisateurs peuvent facilement intégrer et vocaliser leur site web ou ajouter de l'audio à partir de projets existants grâce à l'API d'ElevenLabs. Pour cela, ils doivent fournir un bref extrait de code HTML. Ils doivent ajouter leur domaine à la liste des "autoriser", choisir une voix parmi les options disponibles et personnaliser la couleur de fond et le texte du lecteur avant de copier et coller le code fourni sur leur site. Un dictionnaire de prononciation optionnel permet d'adapter des phrasés uniques à une marque. Par défaut, le modèle génère des voix-off pour tout le contenu textuel d'une page, mais une personnalisation est possible avec des sélecteurs CSS. L'outil prend actuellement en charge des plateformes telles que React, Squarespace, WordPress, Ghost, Webflow et Framer. Les premières critiques décrivent l'outil comme “génial” et “incroyable”, soulignant son potentiel considérable pour améliorer l'accessibilité.
Innovations Futures en Vue
Selon les réponses sur les réseaux sociaux, ElevenLabs semble déterminé à élargir ses fonctionnalités. Lorsque qu'un utilisateur a proposé d'ajouter des capacités de flux RSS pour le podcasting de leur contenu écrit, Luke Harries, responsable de la croissance chez ElevenLabs, a répondu : “Excellente idée, je le partage avec l'équipe.” Fondée en 2022 par l'ancien ingénieur de Google Piotr Dabkowski et le stratège de Palantir Mati Staniszewski, ElevenLabs a rapidement atteint une valorisation de 1,1 milliard de dollars. L'entreprise a levé 80 millions de dollars lors de son dernier tour de financement en janvier.
Dans un paysage compétitif comprenant des acteurs tels que Speechify, Deepgram et Voicemod, ElevenLabs se distingue dans le marché mondial en pleine expansion du clonage vocal par IA, qui devrait atteindre 16,2 milliards de dollars d'ici 2032, avec un taux de croissance annuel composé (CAGR) d'environ 28 % à partir de 2023. ElevenLabs a également établi un partenariat avec HarperCollins Publishers pour créer des livres audio générés par IA et a lancé un marché permettant aux utilisateurs de monétiser leurs voix clonées. Cependant, la société est confrontée à des interrogations sur ses capacités de génération musicale et les préoccupations concernant l'utilisation de matériaux protégés par des droits d'auteur pour entraîner ses modèles, un sujet qui a suscité une attention croissante récemment.