Stability AI dévoile Stable Audio 2.0 : Clarté et puissance améliorées dans les solutions audio génératives de l'IA.

Home Actualités IA Stability AI dévoile Stable Audio 2.0 : Clarté et puissance améliorées dans les solutions audio génératives de l'IA.

Stability AI fait avancer sa vision de l'intelligence artificielle générative avec le lancement du modèle Stable Audio 2.0. Bien que l'entreprise soit largement reconnue pour ses modèles de diffusion d'images à partir de texte, elle élargit désormais son portefeuille. Stable Audio a été lancé initialement en septembre 2023, permettant aux utilisateurs de créer de courts extraits audio à partir d'instructions textuelles. Avec Stable Audio 2.0, les utilisateurs peuvent désormais générer des pistes audio de haute qualité allant jusqu'à trois minutes, soit le double de la durée de 90 secondes de la version originale.

En plus de la génération audio à partir de texte, Stable Audio 2.0 propose des capacités audio-à-audio, permettant aux utilisateurs de télécharger des échantillons et de les utiliser comme prompts. Le modèle est actuellement disponible en utilisation gratuite limitée sur le site de Stable Audio, avec un accès API prévu prochainement pour les développeurs souhaitant créer des services innovants.

Le lancement de Stable Audio 2.0 marque la première mise à jour majeure de Stability AI depuis la démission abrupte de l'ancien PDG et fondateur Emad Mostaque en mars. L’entreprise assure aux utilisateurs que cette mise à jour symbolise la continuité des opérations.

Améliorations de Stable Audio 1.0 à 2.0

Le développement de Stable Audio 2.0 a tiré des enseignements précieux de son prédécesseur, Stable Audio 1.0. Zach Evans, responsable de la recherche audio chez Stability AI, a souligné que l'accent lors de la version initiale était mis sur le lancement d'un modèle révolutionnaire avec une qualité audio supérieure et une durée de sortie significative. “Depuis, nous avons concentré nos efforts sur l'amélioration de la musicalité, l'extension de la durée de sortie, et l’augmentation de la réactivité aux prompts détaillés,” a déclaré Evans. “Ces améliorations visent à rendre la technologie plus applicable dans des scénarios réels.”

Stable Audio 2.0 peut désormais produire des morceaux musicaux complets dotés de structures cohérentes. Grâce à la technologie de diffusion latente, le modèle peut générer des compositions d'une durée allant jusqu'à trois minutes, comprenant des sections distinctes d'introduction, de développement et de conclusion, un bond significatif par rapport à sa capacité antérieure de créer uniquement de courts boucles ou fragments.

La technologie derrière Stable Audio 2.0

Stable Audio 2.0 continue d'exploiter un modèle de diffusion latente (LDM). Suite à la version bêta de Stable Audio 1.1 en décembre 2023, le modèle a intégré une architecture “transformer” de diffusion. “Nous avons amélioré la compression des données appliquée à l’audio lors de l’entraînement, ce qui nous permet de faire des sorties allant jusqu'à trois minutes et plus tout en maintenant des temps d'inférence efficaces,” a ajouté Evans.

Capacités créatives améliorées

Avec Stable Audio 2.0, les utilisateurs peuvent générer de l'audio non seulement à partir de prompts textuels, mais aussi d’échantillons audio téléchargés. Des instructions en langage naturel peuvent être utilisées pour transformer créativement ces sons, permettant des processus de perfectionnement et d'édition itératifs. Le modèle élargit également le spectre des effets sonores et textures. Les utilisateurs peuvent désormais demander la création d'environnements immersifs, de sons d'ambiance, de foules, de paysages urbains, et plus encore. De plus, il permet de modifier le style et le ton de l’audio généré et téléchargé.

Protection des droits d'auteur dans l'audio génératif

Les préoccupations relatives aux droits d'auteur demeurent une problématique importante dans l’espace de l'IA générative. Stability AI s'engage à respecter les droits de propriété intellectuelle avec son nouveau modèle audio. Pour atténuer les préoccupations en matière de droits d'auteur, Stable Audio 2.0 a été exclusivement formé sur des données sous licence provenant d'AudioSparx et respecte les demandes d'opt-out. La technologie de reconnaissance de contenu surveille les téléchargements audio pour éviter le traitement de matériel protégé par des droits d'auteur.

La protection des droits d'auteur est essentielle pour que Stability AI puisse commercialiser avec succès Stable Audio et garantir une utilisation sécurisée pour les organisations. Actuellement, Stable Audio génère des revenus grâce aux abonnements à son application web, avec un lancement de l'API prévu prochainement. Cependant, Stable Audio n'est pas un modèle ouvert à ce jour. “Les poids de Stable Audio 2.0 ne seront pas disponibles en téléchargement, mais nous développons des modèles audio ouverts à sortir plus tard cette année,” a confirmé Evans.

Google Cloud et CSA : Le leadership de la direction stimule l'adoption rapide de l'IA générative en cybersécurité pour 2024

AWS présente le modèle Mistral Large dans Amazon Bedrock pour améliorer les capacités de l'IA.

Most people like

Boords

358.4K

Vous cherchez à donner vie à vos personnages imaginatifs grâce à l'intelligence artificielle ? Ce guide vous montrera comment générer des personnages IA captivants qui attirent l'attention et stimulent la créativité. Découvrez les outils et techniques qui rendent la création de personnages simple, engageante et personnalisable pour vos projets. Préparez-vous à libérer votre potentiel créatif avec l'IA !

Générateur de personnages AI Character

Wanderboat AI Travel Planner

354K

Découvrez une nouvelle façon d'explorer le monde avec notre planificateur de voyage intelligent, conçu pour créer des expériences personnalisées adaptées à vos préférences uniques. Que vous recherchiez l'aventure, la détente ou l'immersion culturelle, notre technologie de pointe analyse vos intérêts pour élaborer l'itinéraire idéal juste pour vous. Transformez vos rêves de voyage en réalité et lancez-vous dans des aventures inoubliables qui résonnent avec votre style personnel.

Planificateur de voyage IA AI Trip Planner

Marmof

15.9K

Marmof est un outil d'IA innovant conçu pour rationaliser le processus de création de contenu, permettant aux utilisateurs de produire rapidement et sans effort du contenu de haute qualité.

Autre AI Content Generator

Topical Map AI

17.9K

Dans le paysage numérique d'aujourd'hui, une recherche de mots-clés efficace et une planification stratégique du contenu sont essentielles pour générer du trafic organique et renforcer votre présence en ligne. En optimisant ces processus, vous pouvez vous concentrer sur la création de contenu de haute qualité qui résonne avec votre audience et améliore votre classement dans les moteurs de recherche. Découvrez comment simplifier vos stratégies de mots-clés et adapter votre contenu pour atteindre vos objectifs commerciaux tout en maximisant l'engagement.

SEO AI SEO Assistant

Find AI tools in YBX