Stable Audio 开放:Stable AI开源音频生成模型为音频创作带来了新选择

最近,Stability AI推出了一个开创性的开源AI模型——Stable Audio Open,将其知名的Stable Diffusion文本到图像技术扩展到了音频领域。该模型能够根据用户提供的提示生成高质量、多样化的音频样本,为音乐创作和声音设计注入新的活力。

Stable Audio Open采用基于变换器的扩散模型(DiT),在自编码器的潜在空间内创建音频,显著提升生成声音的质量和多样性。它可以生成最长达47秒的音乐片段,非常适合用于鼓点、器乐旋律、环境音效和各种音效的制作。

该模型现已在HuggingFace平台上正式开源,用户可以直接体验。Stable Audio Open在训练过程中使用了来自FreeSound和Free Music Archive的超过486,000个样本,确保生成音频在风格和类型上具有广泛的覆盖。

需要注意的是,虽然Stable Audio Open在生成高质量短音乐片段方面表现出色,但它并不适合创建完整的歌曲、旋律或人声轨道。该模型旨在作为一个快速而多功能的音频创作工具,而非专业音乐制作软件的替代品。

此外,Stable Audio Open与Stability AI之前的商业模型Stable Audio 2.0有所不同,后者可以生成最长3分钟的完整音频轨道,以满足更广泛的音频创作需求。相比之下,Stable Audio Open专注于短音频片段和音效,为用户提供更大的自定义和灵活性。

Stable Audio Open的发布标志着Stability AI在音频生成领域的一项重要进展。随着人工智能技术的不断发展,我们期待看到更多创新和实用的音频生成模型及其应用。

Most people like

Find AI tools in YBX