OpenAI 推出語音克隆人工智能模型，目前僅對部分合作夥伴提供。

Home AI新聞 OpenAI 推出語音克隆人工智能模型，目前僅對部分合作夥伴提供。

OpenAI 正在擴展其在文本、圖像和視頻生成領域之外的業務，推出了一項重要的音頻技術進展：聲音克隆。今天，該公司宣佈了最新的 AI 模型「Voice Engine」。此模型自 2022 年以來一直在開發中，驅動著 OpenAI 的文本轉語音 API，以及本月早些時候推出的新 ChatGPT 語音和朗讀功能。

聲音克隆的運作方式

Voice Engine 只需人類說話者錄製 15 秒的音頻片段，便能創建真實的聲音克隆。無論是用手機還是電腦麥克風錄製，AI 然後生成自然的語音，使其與原說話者的聲音十分相似，讓用戶能將任何輸入的文字轉換成口語表達。

對於音頻市場的重大影響

這項技術對於經常公開演講的人士，如播客主、配音演員、有聲書講述者、玩家和客服代表，具有巨大的潛力。此外，它同時也對此領域的競爭者如 ElevenLabs、Captions、Meta、WellSaid Labs 和 MyShell 形成挑戰。OpenAI 還強調 Voice Engine 可幫助非語言人士，提供獨特且非機械的聲音，對於有言語障礙或學習挑戰者的治療和教育環境極具幫助。

初步應用案例

在公告中，OpenAI 提到 Voice Engine 現在對少數可信合作夥伴開放，包括：

- Age of Learning：利用 Voice Engine 和 GPT-4 為多樣化的學生群體創建個性化聲音內容。

- HeyGen：使用該技術進行視頻翻譯，創建帶有真實語音的多語言自訂虛擬形象，以促進全球交流。

- Dimagi：整合 Voice Engine，為社區健康工作者提供互動的多語言反饋，提高偏遠地區的服務質量。

- Livox：利用 Voice Engine 增強其輔助溝通應用程式，為有語言和聽力障礙的人士提供獨特的聲音。

- Norman Prince Neurosciences Institute at Lifespan：使用此技術幫助言語障礙患者，特別是根據先前音頻樣本幫助恢復一位腦瘤患者的聲音。

OpenAI 還提供了展示技術能力的音頻樣本，包括患者原始語音與使用 Voice Engine 克隆版本的比較。

有限的訪問權限與謹慎部署

目前，Voice Engine 尚未對公眾開放。OpenAI 正在與少數可信合作夥伴分享小規模預覽的見解和結果。該公司表示：「因合成語音的潛在濫用風險，我們正在謹慎且知情地推進更廣泛的發布。」OpenAI 希望展開關於合成語音負責任使用的討論，並評估社會如何適應這些進展。

OpenAI 關於推出 Voice Engine 的做法與近期對 AI 語音模仿的規範呼聲一致。為確保倫理使用，測試該技術的合作夥伴必須遵循禁止未經授權模仿的嚴格政策，並要求語音捐贈者提供知情同意。此外，OpenAI 正在實施包括水印和主動監控在內的安全措施，以促進技術的負責任使用。

生成式人工智慧能否彌補網路安全資源缺口？