OpenAI 推出語音克隆人工智能模型,目前僅對部分合作夥伴提供。

OpenAI 正在擴展其在文本、圖像和視頻生成領域之外的業務,推出了一項重要的音頻技術進展:聲音克隆。今天,該公司宣佈了最新的 AI 模型「Voice Engine」。此模型自 2022 年以來一直在開發中,驅動著 OpenAI 的文本轉語音 API,以及本月早些時候推出的新 ChatGPT 語音和朗讀功能。

聲音克隆的運作方式

Voice Engine 只需人類說話者錄製 15 秒的音頻片段,便能創建真實的聲音克隆。無論是用手機還是電腦麥克風錄製,AI 然後生成自然的語音,使其與原說話者的聲音十分相似,讓用戶能將任何輸入的文字轉換成口語表達。

對於音頻市場的重大影響

這項技術對於經常公開演講的人士,如播客主、配音演員、有聲書講述者、玩家和客服代表,具有巨大的潛力。此外,它同時也對此領域的競爭者如 ElevenLabs、Captions、Meta、WellSaid Labs 和 MyShell 形成挑戰。OpenAI 還強調 Voice Engine 可幫助非語言人士,提供獨特且非機械的聲音,對於有言語障礙或學習挑戰者的治療和教育環境極具幫助。

初步應用案例

在公告中,OpenAI 提到 Voice Engine 現在對少數可信合作夥伴開放,包括:

- Age of Learning:利用 Voice Engine 和 GPT-4 為多樣化的學生群體創建個性化聲音內容。

- HeyGen:使用該技術進行視頻翻譯,創建帶有真實語音的多語言自訂虛擬形象,以促進全球交流。

- Dimagi:整合 Voice Engine,為社區健康工作者提供互動的多語言反饋,提高偏遠地區的服務質量。

- Livox:利用 Voice Engine 增強其輔助溝通應用程式,為有語言和聽力障礙的人士提供獨特的聲音。

- Norman Prince Neurosciences Institute at Lifespan:使用此技術幫助言語障礙患者,特別是根據先前音頻樣本幫助恢復一位腦瘤患者的聲音。

OpenAI 還提供了展示技術能力的音頻樣本,包括患者原始語音與使用 Voice Engine 克隆版本的比較。

有限的訪問權限與謹慎部署

目前,Voice Engine 尚未對公眾開放。OpenAI 正在與少數可信合作夥伴分享小規模預覽的見解和結果。該公司表示:「因合成語音的潛在濫用風險,我們正在謹慎且知情地推進更廣泛的發布。」OpenAI 希望展開關於合成語音負責任使用的討論,並評估社會如何適應這些進展。

OpenAI 關於推出 Voice Engine 的做法與近期對 AI 語音模仿的規範呼聲一致。為確保倫理使用,測試該技術的合作夥伴必須遵循禁止未經授權模仿的嚴格政策,並要求語音捐贈者提供知情同意。此外,OpenAI 正在實施包括水印和主動監控在內的安全措施,以促進技術的負責任使用。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles