Stability AI 發布 Stable Audio 2.0：在生成式 AI 音頻解決方案中提升清晰度與強度

Home AI新聞 Stability AI 發布 Stable Audio 2.0：在生成式 AI 音頻解決方案中提升清晰度與強度

Stability AI 正在推進其生成式人工智能的願景，推出了 Stable Audio 2.0 模型。該公司雖以其文本生成圖像的 Stable Diffusion 模型而聞名，現在正在擴展其產品組合。Stable Audio 首次於 2023 年 9 月推出，讓用戶可以根據文本提示創建短音頻片段。隨著 Stable Audio 2.0 的推出，用戶現在能生成長達三分鐘的高品質音訊——是之前 90 秒的兩倍。

除了文本轉音頻生成，Stable Audio 2.0 還引入了音頻轉音頻功能，使用戶能夠上傳樣本並用作提示。該模型目前在 Stable Audio 網站上提供有限免費使用，並將為希望創建創新服務的開發者提供即將推出的 API 接入。

Stable Audio 2.0 的發布標誌著自前首席執行官及創始人 Emad Mostaque 在三月突然辭職以來，Stability AI 的首次重大更新。公司向用戶保證，這次更新意味著業務運營的持續進行。

Stable Audio 1.0 到 2.0 的改進

Stable Audio 2.0 的開發汲取了其前身 Stable Audio 1.0 的寶貴經驗。Stability AI 的音頻研究負責人 Zach Evans 指出，初版發布時的重點是推出一個具有卓越音質和意義持久性的突破性模型。“自那時以來，我們專注於增強音樂性、延長輸出時間、並提高對詳細提示的反應能力，”Evans 說。“這些增強旨在使技術在現實場景中更具應用性。”

Stable Audio 2.0 現在能夠生成具有連貫結構的完整音樂曲目。該模型利用潛在擴散技術生成長達三分鐘的作曲，包含明確的引入、發展和結尾部分——這是其早期僅能創建短循環或片段的重大升級。

Stable Audio 2.0 背後的技術

Stable Audio 2.0 繼續利用潛在擴散模型（LDM）。在 2023 年 12 月 Stable Audio 1.1 的測試版發布後，該模型引入了變壓器骨幹，形成了“擴散變壓器”架構。“我們加強了訓練期間應用於音頻的數據壓縮，使得我們能夠將輸出擴展到三分鐘或更長，同時保持高效的推理時間，”Evans 補充道。

增強的創作能力

通過 Stable Audio 2.0，用戶不僅可以根據文本提示生成音頻，還可以從上傳的音頻樣本中生成。自然語言指令可用於創造性地轉化這些聲音，實現迭代精煉和編輯過程。該模型還擴展了音效和質感的範圍，用戶現在可以提示它創建沉浸式環境、環境聲、群眾聲、城市音景等。此外，使用者還可以修改生成和上傳音頻的風格和基調。

應對生成式 AI 音頻中的版權問題

版權考量在生成式 AI 領域仍然是一個重要問題。Stability AI 致力於通過其新音頻模型維護知識產權。為了減輕版權擔憂，Stable Audio 2.0 專門基於 AudioSparx 的授權數據進行訓練，並尊重退出請求。內容識別技術監控音頻上傳，以防止處理受版權保護的材料。

保護版權對 Stability AI 成功商業化 Stable Audio 及確保其安全使用至關重要。目前，Stable Audio 通過其網絡應用的訂閱產生收益，API 也將很快推出。

然而，Stable Audio 目前並不是一個開放模型。“Stable Audio 2.0 的權重將不提供下載，但我們正開發開放音頻模型，計劃於今年晚些時候發布，”Evans 確認道。

谷歌雲端與 CSA：C-Suite 領導層推動 2024 年快速採用生成式 AI 於網路安全領域

AWS 將 Mistral 大型模型引入 Amazon Bedrock，提升 AI 能力

Most people like

Cresta AI

32.7K

Cresta AI 提供前沿的智能解決方案，專為聯絡中心設計，顯著提升客戶互動和整體服務體驗。

生成式人工智慧 AI Customer Service Assistant

Boomy

297.4K

透過Boomy平台，輕鬆體驗AI音樂創作。

人工智慧 AI Music Generator

AI Face Swap

體驗線上AI換臉的強大，只需上傳您的照片！利用尖端技術無縫轉換您的影像，輕鬆換臉。探索引人入勝的AI換臉世界，僅需幾次點擊即可發現無限的創意可能性。

AI 臉部替換 Photo & Image Editor

JibJab

5.7K

在當今快速變化的數位環境中，個性化娛樂平台已徹底改變了我們消費內容的方式。這些量身定制的服務根據您的偏好精心策劃體驗，確保每位用戶享受獨特的觀看旅程。憑藉先進的演算法和豐富的選擇，這些平台不僅節省您的時間，還提升整體娛樂體驗，將您與喜愛的節目和電影連結起來。加入我們，一同探討這些創新娛樂解決方案的優勢與特點。

個性化人工智慧照片 AI GIF Generator

Find AI tools in YBX