Stability AI推出Stability Audio:音效设计专业人士的变革者

Stability AI 正在推出其音频生成 AI 的新产品——Stable Audio Open 1.0。该公司以 Stable Diffusion 文本到图像技术闻名,现在提供包括代码、文本和音频在内的多个模型。2023 年 9 月,公司发布了 Stable Audio,这是一款文本转音频的生成 AI 工具。而在 2024年4月3日,Stable Audio 2.0 的发布进一步提升了音频的清晰度和时长。

Stable Audio Open 为商业用户提供服务,主要用于生成较短的音频片段,例如音效,而非完整歌曲。该模型并非完全开源,而是根据 Stability AI 非商业研究社区协议许可进行有限使用。

Stability AI 音频研究负责人扎克·埃文斯表示:“我们推出 Stable Audio Open 的目的是让音频研究人员和制作人能够直接使用我们的生成音频模型,以促进研究、应用和创意探索。”

什么是 Stable Audio Open?

Stable Audio Open 专注于为音乐制作和声音设计创建鼓点、乐器旋律、环境音效等音频样本。与商用的 Stable Audio 产品生成长达三分钟的连贯音乐曲目不同,Stable Audio Open 专注于生成时长最多为 47 秒的高品质音频片段,基于文本提示驱动。

Stability AI 优先考虑负责任的训练实践,使用来自 FreeSound 和 Free Music Archive 的音频数据,以避免未经许可的版权材料。

为创作自由而进行的细调

Stable Audio Open 的一大优势是其精细调整能力,允许用户使用自己的音频数据来定制模型。例如,鼓手可以利用自己的鼓录音来生成独特的节奏。

细调过程利用了 Stable Audio Tools 库,该库以开源框架许可。模型权重也已在 Hugging Face 上提供。

埃文斯补充说:“我们的音频研究团队将不断努力提升生成音频模型的质量和控制力。我们期望未来推出的商业和开源模型能够反映我们的研究进展。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles