最近,Stability AI 推出了名為 Stable Audio Open 的開創性開源 AI 模型,將其著名的 Stable Diffusion 文本轉換影像技術擴展至音頻領域。該模型根據用戶提供的提示生成高品質且多樣化的音頻樣本,為音樂創作和聲音設計注入新的活力。
Stable Audio Open 採用基於變壓器的擴散模型 (DiT),在自編碼器的潛在空間內創建音頻,顯著提升生成聲音的質量和多樣性。它可以生成長達 47 秒的音樂片段,十分適合各種應用,包括鼓點、器樂旋律、環境聲音和音效。
該模型目前已在 HuggingFace 平台上正式開源,允許用戶直接進行實驗。在訓練過程中,Stable Audio Open 參考了來自 FreeSound 和 Free Music Archive 等音樂庫中的超過 486,000 個樣本,確保生成的音頻涵蓋廣泛的風格和類型。
需要注意的是,雖然 Stable Audio Open 在生成高品質短音樂片段方面表現出色,但它並不適用於創作完整歌曲、旋律或人聲軌道。該模型旨在作為一個快速而多功能的音頻創作工具,而不是專業音樂製作軟件的替代品。
此外,Stable Audio Open 與 Stability AI 之前的商業模型 Stable Audio 2.0 有所不同,後者能生成長達 3 分鐘的完整音頻軌道,以滿足更廣泛的音頻創作需求。相比之下,Stable Audio Open 專注於短音頻片段和音效,為用戶提供更高的自訂性和靈活性。
Stable Audio Open 的發布標誌著 Stability AI 在音頻生成領域的重要進步。隨著人工智慧技術的不斷發展,我們期待看到更多創新且實用的音頻生成模型及其應用。