Stable Audio Open：Stable AI的開源音頻生成模型，為音頻創作提供全新選擇

Home AI新聞 Stable Audio Open：Stable AI的開源音頻生成模型，為音頻創作提供全新選擇

最近，Stability AI 推出了名為 Stable Audio Open 的開創性開源 AI 模型，將其著名的 Stable Diffusion 文本轉換影像技術擴展至音頻領域。該模型根據用戶提供的提示生成高品質且多樣化的音頻樣本，為音樂創作和聲音設計注入新的活力。

Stable Audio Open 採用基於變壓器的擴散模型 (DiT)，在自編碼器的潛在空間內創建音頻，顯著提升生成聲音的質量和多樣性。它可以生成長達 47 秒的音樂片段，十分適合各種應用，包括鼓點、器樂旋律、環境聲音和音效。

該模型目前已在 HuggingFace 平台上正式開源，允許用戶直接進行實驗。在訓練過程中，Stable Audio Open 參考了來自 FreeSound 和 Free Music Archive 等音樂庫中的超過 486,000 個樣本，確保生成的音頻涵蓋廣泛的風格和類型。

需要注意的是，雖然 Stable Audio Open 在生成高品質短音樂片段方面表現出色，但它並不適用於創作完整歌曲、旋律或人聲軌道。該模型旨在作為一個快速而多功能的音頻創作工具，而不是專業音樂製作軟件的替代品。

此外，Stable Audio Open 與 Stability AI 之前的商業模型 Stable Audio 2.0 有所不同，後者能生成長達 3 分鐘的完整音頻軌道，以滿足更廣泛的音頻創作需求。相比之下，Stable Audio Open 專注於短音頻片段和音效，為用戶提供更高的自訂性和靈活性。

Stable Audio Open 的發布標誌著 Stability AI 在音頻生成領域的重要進步。隨著人工智慧技術的不斷發展，我們期待看到更多創新且實用的音頻生成模型及其應用。

美國啟動對微軟、OpenAI 和 Nvidia 人工智慧實踐的反壟斷調查

平衡之道：在人工智慧功能與iOS 18隱私保護之間穿梭的爭議