Stability AI fait avancer sa vision de l'intelligence artificielle générative avec le lancement du modèle Stable Audio 2.0. Bien que l'entreprise soit largement reconnue pour ses modèles de diffusion d'images à partir de texte, elle élargit désormais son portefeuille. Stable Audio a été lancé initialement en septembre 2023, permettant aux utilisateurs de créer de courts extraits audio à partir d'instructions textuelles. Avec Stable Audio 2.0, les utilisateurs peuvent désormais générer des pistes audio de haute qualité allant jusqu'à trois minutes, soit le double de la durée de 90 secondes de la version originale.
En plus de la génération audio à partir de texte, Stable Audio 2.0 propose des capacités audio-à-audio, permettant aux utilisateurs de télécharger des échantillons et de les utiliser comme prompts. Le modèle est actuellement disponible en utilisation gratuite limitée sur le site de Stable Audio, avec un accès API prévu prochainement pour les développeurs souhaitant créer des services innovants.
Le lancement de Stable Audio 2.0 marque la première mise à jour majeure de Stability AI depuis la démission abrupte de l'ancien PDG et fondateur Emad Mostaque en mars. L’entreprise assure aux utilisateurs que cette mise à jour symbolise la continuité des opérations.
Améliorations de Stable Audio 1.0 à 2.0
Le développement de Stable Audio 2.0 a tiré des enseignements précieux de son prédécesseur, Stable Audio 1.0. Zach Evans, responsable de la recherche audio chez Stability AI, a souligné que l'accent lors de la version initiale était mis sur le lancement d'un modèle révolutionnaire avec une qualité audio supérieure et une durée de sortie significative. “Depuis, nous avons concentré nos efforts sur l'amélioration de la musicalité, l'extension de la durée de sortie, et l’augmentation de la réactivité aux prompts détaillés,” a déclaré Evans. “Ces améliorations visent à rendre la technologie plus applicable dans des scénarios réels.”
Stable Audio 2.0 peut désormais produire des morceaux musicaux complets dotés de structures cohérentes. Grâce à la technologie de diffusion latente, le modèle peut générer des compositions d'une durée allant jusqu'à trois minutes, comprenant des sections distinctes d'introduction, de développement et de conclusion, un bond significatif par rapport à sa capacité antérieure de créer uniquement de courts boucles ou fragments.
La technologie derrière Stable Audio 2.0
Stable Audio 2.0 continue d'exploiter un modèle de diffusion latente (LDM). Suite à la version bêta de Stable Audio 1.1 en décembre 2023, le modèle a intégré une architecture “transformer” de diffusion. “Nous avons amélioré la compression des données appliquée à l’audio lors de l’entraînement, ce qui nous permet de faire des sorties allant jusqu'à trois minutes et plus tout en maintenant des temps d'inférence efficaces,” a ajouté Evans.
Capacités créatives améliorées
Avec Stable Audio 2.0, les utilisateurs peuvent générer de l'audio non seulement à partir de prompts textuels, mais aussi d’échantillons audio téléchargés. Des instructions en langage naturel peuvent être utilisées pour transformer créativement ces sons, permettant des processus de perfectionnement et d'édition itératifs. Le modèle élargit également le spectre des effets sonores et textures. Les utilisateurs peuvent désormais demander la création d'environnements immersifs, de sons d'ambiance, de foules, de paysages urbains, et plus encore. De plus, il permet de modifier le style et le ton de l’audio généré et téléchargé.
Protection des droits d'auteur dans l'audio génératif
Les préoccupations relatives aux droits d'auteur demeurent une problématique importante dans l’espace de l'IA générative. Stability AI s'engage à respecter les droits de propriété intellectuelle avec son nouveau modèle audio. Pour atténuer les préoccupations en matière de droits d'auteur, Stable Audio 2.0 a été exclusivement formé sur des données sous licence provenant d'AudioSparx et respecte les demandes d'opt-out. La technologie de reconnaissance de contenu surveille les téléchargements audio pour éviter le traitement de matériel protégé par des droits d'auteur.
La protection des droits d'auteur est essentielle pour que Stability AI puisse commercialiser avec succès Stable Audio et garantir une utilisation sécurisée pour les organisations. Actuellement, Stable Audio génère des revenus grâce aux abonnements à son application web, avec un lancement de l'API prévu prochainement. Cependant, Stable Audio n'est pas un modèle ouvert à ce jour. “Les poids de Stable Audio 2.0 ne seront pas disponibles en téléchargement, mais nous développons des modèles audio ouverts à sortir plus tard cette année,” a confirmé Evans.