Stability AI 推出 Stable Audio:為音效設計專業人士帶來革命性變革

Stability AI 正在推出其音頻生成 AI,推出了 Stable Audio Open 1.0。該公司以 Stable Diffusion 文本轉圖像技術而聞名,並擁有多樣化的產品組合,涵蓋代碼、文本以及現在的音頻。2023年9月,Stability AI 發布了 Stable Audio,這是一款文本轉音頻的生成 AI 工具。隨後,Stable Audio 2.0 於4月3日發布,增強了音頻的清晰度和時長。

Stable Audio Open 雖然可供一般商業使用,但主要集中於生成短音頻片段,例如音效,而非完整歌曲。該模型並非完全開源,而是根據 Stability AI 非商業研究社區協議授權運行,提供有限的使用範圍。

Stability AI 音頻研究部門負責人 Zach Evans 表示:“我們的目標是讓音頻研究人員和製作人能夠親手接觸我們的音頻生成模型,以促進研究、應用和創意探索。”

什麼是 Stable Audio Open?

Stable Audio Open 專注於創造鼓點、樂器片段、環境聲音及其他音頻樣本,適用於音樂製作和音效設計。與商業版 Stable Audio 不同,Stable Audio Open 生成的高品質音頻短片時長可達 47 秒,並根據文本提示進行創作,與商業版可生成最多三分鐘的連貫音樂曲目有所區別。

Stability AI 重視負責任的訓練實踐,使用 FreeSound 和 Free Music Archive 的音頻數據,避免未經許可的受版權保護材料。

創意自由的微調

Stable Audio Open 的一大優勢是其微調能力,使用者可以用自己的音頻數據自訂模型。例如,鼓手可以利用自己的鼓錄音來微調模型,以生成獨特的鼓點。

微調過程使用的 Stable Audio Tools 庫,遵循開源框架進行授權。模型權重也可在 Hugging Face 獲得。

Evans 補充說:“音頻研究團隊持續致力於提升我們生成音頻模型的質量和控制能力。我們期待未來的商業及開放模型發布,反映我們的研究進展。”

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles