ElevenLabs élargit ses capacités en IA : présentation d'effets sonores innovants générés par l'IA.

Après avoir lancé avec succès des outils de synthèse vocale et de synthèse vocale à partir de la parole, la startup d'IA vocale ElevenLabs vise une nouvelle frontière. Fondée par d'anciens employés de Google et de Palantir, cette entreprise de deux ans a présenté aujourd'hui sa dernière innovation : Sound Effects, un outil d'IA text-to-sound.

Désormais disponible sur le site d'ElevenLabs, Sound Effects exploite le modèle de base propriétaire de l'entreprise, permettant aux créateurs de générer divers échantillons audio simplement en tapant une description du son souhaité.

Initialement teasé en février avec des clips générés par Sora, agrémentés d'effets sonores IA, Sound Effects constitue une avancée significative pour les créateurs de contenu en quête d'expériences audio immersives.

Qu'est-ce que les créateurs peuvent attendre de Sound Effects ?

Traditionnellement, l'ajout de bruitages à des contenus—comme des vidéos sociales, des jeux, des films ou des émissions de télévision—exigeait que les créateurs enregistrent les sons manuellement ou achètent des fichiers audio sur divers sites. Cette méthode peut s'avérer contraignante, entraînant un manque de sons disponibles et des contraintes budgétaires.

Avec Sound Effects, ElevenLabs simplifie ce processus. Les utilisateurs peuvent décrire facilement le son qu'ils imaginent dans un langage courant. Le modèle sous-jacent traite la demande et génère six échantillons audio uniques parmi lesquels les utilisateurs peuvent choisir. Ils peuvent écouter chaque option et télécharger ou enregistrer simplement leurs choix préférés directement depuis la plateforme ElevenLabs.

Lors de tests préliminaires, un média a observé que Sound Effects produisait des sorties claires en 30 à 40 secondes, bien que seulement quatre options aient été générées au lieu de six. Ces échantillons incluaient une variété de sons ambiants, allant des bruits standards comme les orages et les sonnettes de porte à des effets plus complexes comme des singes bavardant et des trains arrivant.

Mati Staniszewski, PDG d'ElevenLabs, a souligné que l'outil est capable de générer des échantillons audio plus longs, y compris de la musique instrumentale et des voix de personnages. "Sound Effects peut créer des morceaux instrumentaux allant jusqu'à 22 secondes avec des requêtes telles que 'boucle de guitare' ou 'solo de saxophone jazz,'" a-t-il expliqué. Les utilisateurs peuvent également créer des voix de personnages avec des descriptions comme “une femme chantant en dansant sur le sable” ou “un ogre disant, ‘reste loin, humain insignifiant.’” De plus, ils peuvent combiner des sons avec des requêtes comme, “Une joyeuse femme âgée dit je suis si fière de toi, puis rit.”

Bien que les détails spécifiques sur le modèle sous-jacent n'aient pas été divulgués, ElevenLabs a précisé qu'il a été développé grâce à une recherche interne et optimisé en utilisant la vaste bibliothèque de pistes audio sous licence de Shutterstock. Aimee Egan, Directrice des Entreprises chez Shutterstock, a exprimé son enthousiasme concernant cette collaboration, affirmant : "La synergie entre notre riche bibliothèque et cette technologie audio innovante a abouti à une première sur le marché."

Viser à autonomiser les créateurs à l'échelle mondiale

Depuis son lancement, ElevenLabs s'est consacré à créer des solutions audio IA avancées. L'entreprise a commencé avec des modèles de synthèse vocale dans plusieurs langues, suivis de produits notables tels que le clonage vocal et le doublage IA, qui traduit l'audio et la vidéo en 29 langues tout en préservant la voix de l'orateur d'origine.

Avec Sound Effects, ElevenLabs élargit son offre, fournissant aux créateurs—y compris les cinéastes, développeurs de jeux, marketers et influenceurs des médias sociaux—des outils plus puissants pour élever leur contenu.

Bien que Staniszewski n'ait pas révélé les entreprises actuellement en phase alpha de test du produit, il a mentionné qu'ElevenLabs sert 41 % du Fortune 500, avec des clients remarquables tels que The Washington Post, Storytel et TheSoul Publishing.

En regardant vers l'avenir, l'entreprise prévoit de lancer un modèle de génération musicale et une offre de studio de voix off, actuellement en phase alpha de test, bien que les délais restent incertains.

Le marché de la génération audio, sonore et musicale par IA est en pleine expansion, avec des concurrents tels que Google, Meta, Suno, Pika, MURF.AI, Play.ht et WellSaid Labs. Selon Market US, le marché mondial de ces outils a atteint 1,2 milliard de dollars en 2022 et devrait croître pour atteindre près de 5 milliards de dollars d'ici 2032, avec un taux de croissance annuel composé (TCAC) de plus de 15,40 %.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles