Stability AI发布Stable Audio 2.0:增强清晰度与力量的生成式AI音频解决方案

Stability AI 推出 Stable Audio 2.0,进一步推动其生成式人工智能的愿景。虽然公司以其文本到图像的 Stable Diffusion 模型而闻名,但现在正在扩展其产品线。Stable Audio 最初于 2023 年 9 月推出,允许用户根据文本提示创建短音频片段。而在 Stable Audio 2.0 中,用户现在可以生成长达三分钟的高质量音轨,这个时长是原先 90 秒的两倍。

除了文本到音频的生成,Stable Audio 2.0 还引入了音频到音频的功能,用户可以上传音频样本并将其作为提示。目前,该模型在 Stable Audio 网站上提供有限的免费使用,开发者可以期待很快开放的 API 访问,用于构建创新服务。

Stable Audio 2.0 的发布是 Stability AI 自前 CEO 兼创始人 Emad Mostaque 于 3 月辞职以来的第一次重要更新。公司向用户保证,此次更新体现了其持续的业务运营。

Stable Audio 从 1.0 到 2.0 的改进

Stable Audio 2.0 的开发吸取了其前身 Stable Audio 1.0 的宝贵经验。Stability AI 音频研究负责人 Zach Evans 表示,在最初发布时,重点是推出一款具有卓越音质和实际输出时长的突破性模型。“从那时起,我们专注于增强音乐性、延长输出时长和提升对详细提示的响应能力,”Evans 说。“这些改进旨在使技术在现实场景中更加适用。”

Stable Audio 2.0 现在可以生成完整的音乐作品,并具备连贯的结构。利用潜在扩散技术,该模型可以创作长达三分钟的作品,包括明确的序言、发展部分和尾声,这比之前只能创建短循环或片段的能力有了显著提升。

Stable Audio 2.0 背后的技术

Stable Audio 2.0 继续利用潜在扩散模型(LDM)。在 2023 年 12 月 Stable Audio 1.1 的测试版发布之后,该模型融入了一种变换器架构,形成了“扩散变换器”。“我们增强了音频训练过程中应用的数据压缩,从而在保持高效推理时间的同时,将输出时长扩展到三分钟以上,”Evans 补充道。

提升的创作能力

借助 Stable Audio 2.0,用户不仅可以从文本提示生成音频,还可以通过上传的音频样本进行创作。用户可以使用自然语言指令对这些声音进行创造性转化,进行迭代优化和编辑。

该模型还扩展了声音效果和质地的范围。用户可以提示它创建沉浸式环境、环境音、嘈杂的人群、城市风景等。此外,还可以对生成和上传的音频进行风格和语气的修改。

解决生成式 AI 音频的版权问题

版权问题在生成式 AI 领域依然是一个重要议题。Stability AI 致力于在其新音频模型中维护知识产权。为缓解版权担忧,Stable Audio 2.0 完全基于来自 AudioSparx 的授权数据进行训练,并尊重用户的选择退出请求。内容识别技术监控音频上传,以防止处理版权材料。

保护版权对 Stability AI 成功商业化 Stable Audio 至关重要,并能确保组织安全使用。目前,Stable Audio 通过订阅其网络应用程序获得收入,API 即将推出。但目前 Stable Audio 仍不是开放模型。Evans 确认:“Stable Audio 2.0 的模型权重将不会提供下载,但我们正在开发计划于今年晚些时候发布的开放音频模型。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles