聲音克隆:人工智能音頻生成的未來
聲音克隆是生成式人工智能(AI)中快速發展的一個領域,涉及使用先進技術複製個體的聲音特徵,包括音調、音色、節奏、習慣和獨特的發音。像 ElevenLabs 這樣的初創公司已獲得大量資金,而 Facebook、Instagram、WhatsApp 和 Oculus VR 的母公司 Meta Platforms 則推出了名為 Audiobox 的免費聲音克隆工具,但該工具存在一些限制。
介紹 Audiobox
由 Facebook 人工智能研究(FAIR)實驗室的研究人員揭示,Audiobox 被描述為“音頻生成的基礎研究模型”,建立在之前 Voicebox 的基礎上。根據 Audiobox 的網站,“它可以利用聲音輸入和自然語言文本提示生成聲音和音效,便於為各種使用情景創建自定義音頻。”
用戶可以簡單輸入一句話讓克隆聲音朗讀,或描述希望生成的聲音。用戶還可以錄製自己的聲音,然後讓 Audiobox 進行克隆。
音頻生成模型系列
Meta 已開發出一系列模型,包括一個用於模仿語音和另一個用於生成環境音效,如狗叫或警報聲,這些模型都是建立在共享的自我監督學習(SSL)模型——Audiobox SSL 上。
自我監督學習是一種深度學習技術,AI 算法生成自己標籤的無標籤數據,與依賴預標記數據的監督學習不同。研究人員的論文解釋了他們的 SSL 方法,強調“標記數據並非總是可用或高質量;因此,我們的策略是使用無監督的音頻進行訓練,例如文本或標題。”
以 Audiobox 為首的領先生成式 AI 模型通常依賴人類生成的數據進行訓練。FAIR 的研究人員在這一過程中使用了“16萬小時的語音(主要為英語)、2萬小時的音樂和6千小時的聲音樣本”。語音數據包括有聲書、播客、對話及各種聲學環境中的錄音,涵蓋來自150多個國家和200多種主要語言的發言者。
儘管研究論文未具體說明這些數據的來源,但這引發了一個重要問題:內容創作者和版權持有人對 AI 公司使用潛在受版權保護的材料訓練模型而未獲得適當同意表示擔憂。Meta 在一封電子郵件中指出“Audiobox 是在公開可用和授權的數據集上進行訓練的”,但未透露具體來源。
自行體驗 Audiobox
Meta 提供互動演示,展示 Audiobox 的功能,讓用戶錄製自己的聲音,生成克隆聲音,然後輸入文本讓該聲音朗讀。根據我的體驗,生成的音頻與我的聲音驚人相似,這一點得到了不知道來源的家人們的確認。
用戶還可以根據文本描述創造全新的聲音,例如“深沉的女性聲音”或“來自美國的高音男性發言者”,並生成各種聲音,如狗叫。我測試了“狗叫”這一功能,得到了兩個令人信服的結果。
不過,有一個重大限制:聲明指出“這是一個研究演示,不得用於任何商業目的。”此外,由於州法律對音頻收集的規範,僅限於伊利諾伊州和德克薩斯州以外的用戶使用。
Audiobox 和 AI 音頻生成的未來
與近期的 Imagine by Meta AI 圖像生成工具不同,Audiobox 不是開源的,這與 Meta 之前在 Llama 2 系列大型語言模型 (LLMs) 上的開放性承諾有所不同。一位 Meta 發言人表示,他們計劃邀請研究人員和學術機構申請針對 Audiobox 的安全性和責任研究資助。
目前,Audiobox 不能用於商業目的,且不對美國人口最多的兩個州的居民開放。但隨著 AI 技術的快速演進,我們可以預期商業版本的出現——無論是來自 Meta 還是其他開發者。