Stability AI发布Stable Audio 2.0：增强清晰度与力量的生成式AI音频解决方案

Home AI News CN Stability AI发布Stable Audio 2.0：增强清晰度与力量的生成式AI音频解决方案

Stability AI 推出 Stable Audio 2.0，进一步推动其生成式人工智能的愿景。虽然公司以其文本到图像的 Stable Diffusion 模型而闻名，但现在正在扩展其产品线。Stable Audio 最初于 2023 年 9 月推出，允许用户根据文本提示创建短音频片段。而在 Stable Audio 2.0 中，用户现在可以生成长达三分钟的高质量音轨，这个时长是原先 90 秒的两倍。

除了文本到音频的生成，Stable Audio 2.0 还引入了音频到音频的功能，用户可以上传音频样本并将其作为提示。目前，该模型在 Stable Audio 网站上提供有限的免费使用，开发者可以期待很快开放的 API 访问，用于构建创新服务。

Stable Audio 2.0 的发布是 Stability AI 自前 CEO 兼创始人 Emad Mostaque 于 3 月辞职以来的第一次重要更新。公司向用户保证，此次更新体现了其持续的业务运营。

Stable Audio 从 1.0 到 2.0 的改进

Stable Audio 2.0 的开发吸取了其前身 Stable Audio 1.0 的宝贵经验。Stability AI 音频研究负责人 Zach Evans 表示，在最初发布时，重点是推出一款具有卓越音质和实际输出时长的突破性模型。“从那时起，我们专注于增强音乐性、延长输出时长和提升对详细提示的响应能力，”Evans 说。“这些改进旨在使技术在现实场景中更加适用。”

Stable Audio 2.0 现在可以生成完整的音乐作品，并具备连贯的结构。利用潜在扩散技术，该模型可以创作长达三分钟的作品，包括明确的序言、发展部分和尾声，这比之前只能创建短循环或片段的能力有了显著提升。

Stable Audio 2.0 背后的技术

Stable Audio 2.0 继续利用潜在扩散模型（LDM）。在 2023 年 12 月 Stable Audio 1.1 的测试版发布之后，该模型融入了一种变换器架构，形成了“扩散变换器”。“我们增强了音频训练过程中应用的数据压缩，从而在保持高效推理时间的同时，将输出时长扩展到三分钟以上，”Evans 补充道。

提升的创作能力

借助 Stable Audio 2.0，用户不仅可以从文本提示生成音频，还可以通过上传的音频样本进行创作。用户可以使用自然语言指令对这些声音进行创造性转化，进行迭代优化和编辑。

该模型还扩展了声音效果和质地的范围。用户可以提示它创建沉浸式环境、环境音、嘈杂的人群、城市风景等。此外，还可以对生成和上传的音频进行风格和语气的修改。

解决生成式 AI 音频的版权问题

版权问题在生成式 AI 领域依然是一个重要议题。Stability AI 致力于在其新音频模型中维护知识产权。为缓解版权担忧，Stable Audio 2.0 完全基于来自 AudioSparx 的授权数据进行训练，并尊重用户的选择退出请求。内容识别技术监控音频上传，以防止处理版权材料。

保护版权对 Stability AI 成功商业化 Stable Audio 至关重要，并能确保组织安全使用。目前，Stable Audio 通过订阅其网络应用程序获得收入，API 即将推出。但目前 Stable Audio 仍不是开放模型。Evans 确认：“Stable Audio 2.0 的模型权重将不会提供下载，但我们正在开发计划于今年晚些时候发布的开放音频模型。”

谷歌云与CSA：高管领导助推2024年网络安全领域生成式AI的快速应用

AWS将Mistral大型模型引入Amazon Bedrock，提升AI能力