Après avoir perfectionné le clonage et la synthèse vocale à l'aide de l'apprentissage automatique, ElevenLabs, une start-up d'IA fondée par d'anciens employés de Google et Palantir, élargit son offre avec un nouveau modèle de conversion de texte en son.
Annoncée récemment, cette IA innovante permettra aux créateurs de générer des effets sonores simplement en décrivant leur vision par des mots, enrichissant ainsi le contenu dans le paysage en évolution des expériences numériques pilotées par l'IA. Bien que le modèle ne soit pas encore disponible au public, ElevenLabs a publié un extrait démontrant ses capacités à l'aide de vidéos créées par Sora d'OpenAI, rehaussées par les sons générés par l'IA de l'entreprise. Ils ont également lancé une page d’inscription pour une liste d'attente d'accès anticipé.
Élargir les Possibilités Sonores avec des Effets Sonores IA
Fondée en 2022, ElevenLabs s'engage à rendre le contenu audio et vidéo plus accessible à travers les langues et les régions. L'entreprise propose une variété d'outils, y compris des modèles de synthèse vocale et de conversion parole-à-parole, capables de produire des discours générés par l'IA à partir de différentes sources (texte, audio ou vidéo) dans 29 langues, tout en conservant une voix naturelle et une expression émotionnelle.
Ces outils suscitent un intérêt croissant parmi les entreprises et les créateurs de contenu individuels. Parallèlement, le contenu entièrement généré par IA est en pleine expansion, facilité par des outils tels que Runway et Pika, ainsi que Sora d'OpenAI. Bien que ces produits puissent créer des vidéos réalistes à partir de simples instructions textuelles, ils manquent souvent de son. Le nouveau modèle d'ElevenLabs vise à combler cette lacune, permettant aux utilisateurs de produire des effets sonores pour leur contenu en fonction de descriptions textuelles.
Grâce à cette offre, les créateurs d'IA peuvent améliorer leurs projets avec des bruits de fond, allant des chants d'oiseaux aux bruits de rue animés. "Chez ElevenLabs, nous avons principalement montré nos modèles de conversion de texte en parole en public, mais nous avons bien plus en développement. Lorsque Sora a été dévoilé, générant des vidéos impressionnantes sans son, nous avons décidé de donner un aperçu de notre prochaine gamme de produits," a déclaré Luke Harries, responsable de la croissance chez ElevenLabs, tout en partageant un post mettant en avant des vidéos générées par Sora, enrichies des effets sonores d'ElevenLabs.
Les sons générés par ce nouveau modèle pourraient également être appliqués à du contenu parlé à partir de texte ou à tout projet vidéo nécessitant un audio de fond, tel que des clips Instagram, des publicités ou des bandes-annonces de jeux vidéo. La qualité et la polyvalence de ces effets sonores restent à déterminer.
Inscription pour un Accès Anticipé
Bien qu'ElevenLabs n'ait pas annoncé de date de lancement public, ils acceptent désormais les inscriptions pour un accès anticipé. Les personnes intéressées peuvent visiter leur page d'inscription, y indiquant leur nom et leur email tout en décrivant leur utilisation prévue des effets sonores. Les premiers volontaires sont encouragés à rédiger une suggestion d'instructions pour un effet sonore IA afin d'optimiser les réponses du modèle.
Une fois inscrits, les utilisateurs rejoindront une liste d'attente et auront accès au modèle dès qu'il sera disponible, bien que le calendrier soit actuellement flou.
Bien qu'ElevenLabs ait un avantage d'innovation avec cette technologie, d'autres entreprises du secteur de la parole IA, telles que MURF.AI, Play.ht et WellSaid Labs, ont également le potentiel de développer des produits similaires.
Selon Market US, le marché mondial des outils audio IA était évalué à 1,2 milliard de dollars en 2022 et devrait atteindre près de 5 milliards de dollars d'ici 2032, avec un taux de croissance annuel composé (TCAC) de plus de 15,40 %.