A Stability AI está avançando em sua visão para a inteligência artificial generativa com o lançamento do modelo Stable Audio 2.0. Embora a empresa seja amplamente reconhecida por seus modelos de texto para imagem, como o Stable Diffusion, está expandindo seu portfólio. O Stable Audio foi lançado inicialmente em setembro de 2023, permitindo que usuários criassem clipes de áudio curtos com base em sugestões de texto. Com o Stable Audio 2.0, os usuários agora podem gerar faixas de áudio de alta qualidade de até três minutos — o dobro da duração original de 90 segundos.
Além da geração de texto para áudio, o Stable Audio 2.0 apresenta capacidades de áudio para áudio, permitindo que os usuários enviem amostras e as utilizem como sugestões. O modelo está disponível para uso gratuito limitado no site do Stable Audio, com acesso à API programado para breve, destinado a desenvolvedores que desejam criar serviços inovadores.
O lançamento do Stable Audio 2.0 marca a primeira grande atualização da Stability AI desde a abrupta renúncia do ex-CEO e fundador Emad Mostaque, em março. A empresa tranquiliza os usuários de que a atualização representa a continuidade das operações.
Melhorias do Stable Audio 1.0 para 2.0
O desenvolvimento do Stable Audio 2.0 se beneficiou de valiosas lições de seu predecessor, o Stable Audio 1.0. Zach Evans, chefe de pesquisa em áudio da Stability AI, destacou que o foco durante o lançamento inicial era trazer um modelo inovador com fidelidade sonora superior e duração significativa da saída. “Desde então, concentramos esforços em aprimorar a musicalidade, estender a duração da saída e melhorar a capacidade de resposta a sugestões detalhadas”, afirmou Evans. “Essas melhorias visam tornar a tecnologia mais aplicável em cenários do mundo real.”
O Stable Audio 2.0 agora pode produzir faixas musicais completas com estruturas coerentes. Utilizando tecnologia de difusão latente, o modelo é capaz de gerar composições de até três minutos, com seções distintas de introdução, desenvolvimento e desfecho — uma atualização significativa em relação à capacidade anterior de criar apenas loops ou fragmentos curtos.
A Tecnologia por Trás do Stable Audio 2.0
O Stable Audio 2.0 continua a utilizar um modelo de difusão latente (LDM). Após o lançamento beta do Stable Audio 1.1 em dezembro de 2023, o modelo incorporou uma arquitetura de “transformador de difusão”. “Aprimoramos a compressão de dados aplicada ao áudio durante o treinamento, permitindo escalonar saídas de até três minutos ou mais, mantendo tempos de inferência eficientes,” acrescentou Evans.
Capacidades Criativas Aprimoradas
Com o Stable Audio 2.0, os usuários podem gerar áudio não apenas a partir de sugestões de texto, mas também de amostras de áudio enviadas. Instruções em linguagem natural podem ser usadas para transformar esses sons de maneira criativa, possibilitando processos de refinamento e edição iterativos. O modelo também amplia o espectro de efeitos sonoros e texturas. Agora, os usuários podem solicitar a criação de ambientes imersivos, sons ambientes, multidões, paisagens urbanas e muito mais. Além disso, permite modificações de estilo e tom tanto de áudio gerado quanto de áudio enviado.
Abordando Questões de Direitos Autorais na IA Generativa de Áudio
Considerações sobre direitos autorais continuam sendo uma questão significativa no espaço da IA generativa. A Stability AI está comprometida em respeitar os direitos de propriedade intelectual com seu novo modelo de áudio. Para aliviar preocupações de direitos autorais, o Stable Audio 2.0 foi treinado exclusivamente com dados licenciados da AudioSparx e respeita solicitações de exclusão. A tecnologia de reconhecimento de conteúdo monitora os envios de áudio para evitar o processamento de material protegido.
Proteger os direitos autorais é essencial para a Stability AI comercializar com sucesso o Stable Audio e garantir uso seguro para as organizações. Atualmente, o Stable Audio gera receita por meio de assinaturas de sua aplicação web, com uma API programada para lançamento em breve. No entanto, o Stable Audio não é um modelo aberto neste momento. “Os pesos do Stable Audio 2.0 não estarão disponíveis para download, mas estamos desenvolvendo modelos de áudio abertos para lançamento ainda este ano,” confirmou Evans.