A Stability AI está lançando sua inteligência artificial generativa para áudio com a introdução do Stable Audio Open 1.0. Reconhecida pela tecnologia Stable Diffusion de texto para imagem, a Stability AI possui um portfólio diversificado que inclui modelos para código, texto e agora áudio. Em setembro de 2023, a empresa apresentou o Stable Audio, uma ferramenta generativa de texto para áudio. A versão seguinte, Stable Audio 2.0, lançada em 3 de abril, aprimorou a clareza e a duração do áudio.
O Stable Audio Open, embora disponível para uso comercial geral, concentra-se na produção de peças de áudio mais curtas, como efeitos sonoros, em vez de músicas completas. Este modelo não é totalmente de código aberto; opera sob a licença da comunidade de pesquisa não comercial da Stability AI, permitindo um uso limitado.
“Nossa meta com o Stable Audio Open é proporcionar aos pesquisadores e produtores de áudio acesso prático a um dos nossos modelos de áudio generativos para facilitar a pesquisa, adoção e exploração criativa”, disse Zach Evans, chefe de pesquisa em áudio da Stability AI.
O que é o Stable Audio Open?
O Stable Audio Open se especializa na criação de batidas de bateria, riffs de instrumentos, sons ambientes e outros samples de áudio para produção musical e design sonoro. Ao contrário do produto comercial Stable Audio, que gera faixas musicais coesas de até três minutos, o Stable Audio Open foca na produção de clipes de áudio de alta qualidade com duração de até 47 segundos, impulsionados por prompts de texto.
A Stability AI prioriza práticas de treinamento responsáveis, utilizando dados de áudio do FreeSound e do Free Music Archive para evitar materiais protegidos por direitos autorais sem permissão.
Ajustes para Liberdade Criativa
Uma vantagem significativa do Stable Audio Open é sua capacidade de ajuste fino, permitindo que os usuários personalizem o modelo com seus próprios dados de áudio. Por exemplo, bateristas podem refinar o modelo usando gravações de bateria para gerar batidas exclusivas.
O processo de ajuste fino utiliza a biblioteca Stable Audio Tools, licenciada sob uma estrutura de código aberto. Os pesos do modelo também estão disponíveis no Hugging Face.
“A equipe de pesquisa em áudio está continuamente trabalhando para aprimorar a qualidade e o controle de nossos modelos de áudio generativos”, acrescentou Evans. “Esperamos lançamentos futuros de modelos comerciais e abertos que reflitam nossos avanços em pesquisa.”