Quelques semaines après le lancement de son IA de génération de bruitages, la startup vocale AI ElevenLabs dévoile un outil open-source visant à démontrer ses compétences. En seulement 15 secondes, cette application permet aux créateurs de générer des échantillons de bruitages pour leurs vidéos en analysant le clip importé et en proposant plusieurs options sonores.
Les développeurs peuvent consulter le code de l'application sur GitHub, tandis qu'un site dédié permet au public d'expérimenter avec l'API de bruitages. Lorsqu'une vidéo est téléchargée, l'application Vidéo à Bruitages extrait quatre images à des intervalles d'une seconde côté client. Ces images, accompagnées d'une demande, sont envoyées à GPT-4 d'OpenAI pour créer un prompt personnalisé de génération de bruitages. Celui-ci est ensuite utilisé pour générer des effets sonores via l'API de bruitages d'ElevenLabs. Enfin, la vidéo et l'audio sont combinés côté client en un fichier téléchargeable d'une durée maximale de 22 secondes.
« Nous voyons cela comme une preuve de concept pour ce que les utilisateurs peuvent réaliser avec notre API SFX », déclare Ammaar Reshi, responsable du design chez ElevenLabs. « Les créateurs de vidéos AI cherchent souvent l'effet sonore parfait, et nous visons à simplifier ce processus en analysant les images vidéo et en suggérant les meilleurs résultats. » Il souligne le potentiel d'expériences dynamiques, en particulier dans les jeux vidéo immersifs, où les effets sonores peuvent évoluer en fonction des interactions des joueurs.
L'API permet aux développeurs de créer des effets sonores AI sur mesure à partir de courtes descriptions. ElevenLabs facture en fonction de l'utilisation, soit 100 caractères par génération avec une durée automatique, soit 25 caractères par seconde pour une durée fixe.
Lors d'un essai rapide, l'application de conversion vidéo en bruitages s'est révélée facile à utiliser. Après avoir importé un clip silencieux d'un véhicule dans un environnement tout-terrain, l'IA d'ElevenLabs a généré quatre options sonores, toutes similaires à un véhicule évoluant sur un chemin de gravier. Bien que l'ajout d'effets sonores aux clips soit divertissant, le véritable potentiel réside dans l'intégration de cette capacité au sein de systèmes plus larges pour un impact accru.
Alors que le paysage de la génération vidéo par IA continue d'évoluer, ElevenLabs vise à rester à la pointe en innovant des solutions audio adaptées aux besoins des développeurs, des cinéastes et des créateurs de contenu.