Recentemente, a Stability AI lançou um inovador modelo de IA de código aberto chamado Stable Audio Open, expandindo sua renomada tecnologia Stable Diffusion de texto para imagem para o âmbito do áudio. Este modelo gera amostras de áudio diversificadas e de alta qualidade com base em prompts fornecidos pelo usuário, revitalizando a composição musical e o design de som.
O Stable Audio Open utiliza um modelo de difusão baseado em transformadores (DiT) para criar áudio dentro do espaço latente de um autoencoder, aprimorando significativamente a qualidade e a variedade dos sons gerados. Ele pode produzir clipes musicais de até 47 segundos, tornando-se ideal para diversas aplicações, como batidas de bateria, melodias instrumentais, sons ambiente e efeitos sonoros.
O modelo está oficialmente disponível como código aberto na plataforma HuggingFace, permitindo que os usuários experimentem diretamente. Durante seu treinamento, o Stable Audio Open foi alimentado com mais de 486.000 amostras de bibliotecas musicais como FreeSound e Free Music Archive, garantindo uma ampla cobertura de estilos e gêneros no áudio gerado.
É importante ressaltar que, embora o Stable Audio Open seja excelente na geração de clipes musicais curtos de alta qualidade, não é destinado à criação de músicas completas, melodias ou faixas vocais. O modelo foi projetado como uma ferramenta rápida e versátil para criação de áudio, e não como um substituto para softwares de produção musical profissional.
Além disso, o Stable Audio Open difere do modelo comercial anterior da Stability AI, o Stable Audio 2.0, que pode gerar faixas de áudio completas de até 3 minutos para atender a uma gama mais ampla de necessidades de criação de áudio. Em contrapartida, o Stable Audio Open foca em trechos curtos de áudio e efeitos sonoros, oferecendo aos usuários maior personalização e flexibilidade.
O lançamento do Stable Audio Open representa um avanço significativo para a Stability AI no espaço de geração de áudio. À medida que a tecnologia de inteligência artificial continua a evoluir, aguardamos novas inovações e modelos práticos de geração de áudio e suas aplicações.