Stability AI lance son IA générative pour l'audio avec l'introduction de Stable Audio Open 1.0. Réputée pour sa technologie Stable Diffusion de conversion texte-image, Stability AI propose un large éventail de modèles incluant le code, le texte, et désormais l'audio. En septembre 2023, l'entreprise a présenté Stable Audio, un outil d'IA générative texte-à-audio. Le modèle suivant, Stable Audio 2.0, lancé le 3 avril, a amélioré la clarté et la durée des audios.
Stable Audio Open, bien qu'il soit disponible pour un usage commercial général, se concentre sur la production de morceaux audio courts, tels que des effets sonores, plutôt que des chansons complètes. Ce modèle n'est pas entièrement open source et fonctionne sous la licence de la communauté de recherche non commerciale de Stability AI, offrant un usage limité.
« Notre objectif avec Stable Audio Open est de fournir aux chercheurs et producteurs audio un accès pratique à l'un de nos modèles audio génératifs, afin de faciliter la recherche, l'adoption et l'exploration créative », a déclaré Zach Evans, responsable de la recherche audio chez Stability AI.
Qu'est-ce que Stable Audio Open ?
Stable Audio Open se spécialise dans la création de rythmes de batterie, de riffs d'instruments, de sons ambiants et d'autres échantillons audio pour la production musicale et le design sonore. Contrairement à la version commerciale de Stable Audio, qui génère des morceaux musicaux cohérents de jusqu'à trois minutes, Stable Audio Open se concentre sur la production de clips audio de haute qualité d'une durée maximale de 47 secondes, guidés par des invites textuelles.
Stability AI privilégie des pratiques d'entraînement responsables, utilisant des données audio provenant de FreeSound et du Free Music Archive pour éviter les matériaux protégés par des droits d'auteur sans autorisation.
Affinage pour une liberté créative
Un avantage majeur de Stable Audio Open est sa capacité d'affinage, permettant aux utilisateurs de personnaliser le modèle avec leurs propres données audio. Par exemple, les batteurs peuvent affiner le modèle en utilisant leurs enregistrements de batterie pour générer des rythmes uniques.
Le processus d'affinage utilise la bibliothèque Stable Audio Tools, qui est sous un cadre open-source. Les poids du modèle sont également disponibles sur Hugging Face. « L'équipe de recherche audio travaille continuellement à améliorer la qualité et le contrôle de nos modèles audio génératifs », a ajouté Evans. « Nous prévoyons des sorties futures de modèles commerciaux et open qui reflètent nos avancées en recherche. »