Stability AI 正在推進其生成式人工智能的願景,推出了 Stable Audio 2.0 模型。該公司雖以其文本生成圖像的 Stable Diffusion 模型而聞名,現在正在擴展其產品組合。Stable Audio 首次於 2023 年 9 月推出,讓用戶可以根據文本提示創建短音頻片段。隨著 Stable Audio 2.0 的推出,用戶現在能生成長達三分鐘的高品質音訊——是之前 90 秒的兩倍。
除了文本轉音頻生成,Stable Audio 2.0 還引入了音頻轉音頻功能,使用戶能夠上傳樣本並用作提示。該模型目前在 Stable Audio 網站上提供有限免費使用,並將為希望創建創新服務的開發者提供即將推出的 API 接入。
Stable Audio 2.0 的發布標誌著自前首席執行官及創始人 Emad Mostaque 在三月突然辭職以來,Stability AI 的首次重大更新。公司向用戶保證,這次更新意味著業務運營的持續進行。
Stable Audio 1.0 到 2.0 的改進
Stable Audio 2.0 的開發汲取了其前身 Stable Audio 1.0 的寶貴經驗。Stability AI 的音頻研究負責人 Zach Evans 指出,初版發布時的重點是推出一個具有卓越音質和意義持久性的突破性模型。“自那時以來,我們專注於增強音樂性、延長輸出時間、並提高對詳細提示的反應能力,”Evans 說。“這些增強旨在使技術在現實場景中更具應用性。”
Stable Audio 2.0 現在能夠生成具有連貫結構的完整音樂曲目。該模型利用潛在擴散技術生成長達三分鐘的作曲,包含明確的引入、發展和結尾部分——這是其早期僅能創建短循環或片段的重大升級。
Stable Audio 2.0 背後的技術
Stable Audio 2.0 繼續利用潛在擴散模型(LDM)。在 2023 年 12 月 Stable Audio 1.1 的測試版發布後,該模型引入了變壓器骨幹,形成了“擴散變壓器”架構。“我們加強了訓練期間應用於音頻的數據壓縮,使得我們能夠將輸出擴展到三分鐘或更長,同時保持高效的推理時間,”Evans 補充道。
增強的創作能力
通過 Stable Audio 2.0,用戶不僅可以根據文本提示生成音頻,還可以從上傳的音頻樣本中生成。自然語言指令可用於創造性地轉化這些聲音,實現迭代精煉和編輯過程。該模型還擴展了音效和質感的範圍,用戶現在可以提示它創建沉浸式環境、環境聲、群眾聲、城市音景等。此外,使用者還可以修改生成和上傳音頻的風格和基調。
應對生成式 AI 音頻中的版權問題
版權考量在生成式 AI 領域仍然是一個重要問題。Stability AI 致力於通過其新音頻模型維護知識產權。為了減輕版權擔憂,Stable Audio 2.0 專門基於 AudioSparx 的授權數據進行訓練,並尊重退出請求。內容識別技術監控音頻上傳,以防止處理受版權保護的材料。
保護版權對 Stability AI 成功商業化 Stable Audio 及確保其安全使用至關重要。目前,Stable Audio 通過其網絡應用的訂閱產生收益,API 也將很快推出。
然而,Stable Audio 目前並不是一個開放模型。“Stable Audio 2.0 的權重將不提供下載,但我們正開發開放音頻模型,計劃於今年晚些時候發布,”Evans 確認道。