解鎖未來：MyShell推出OpenVoice，全新開源AI語音克隆模型

Home AI新聞解鎖未來：MyShell推出OpenVoice，全新開源AI語音克隆模型

如ElevenLabs等新創公司已投入數百萬美元開發專有演算法和語音克隆的AI軟體，該軟體能夠複製使用者的聲音。如今，麻省理工學院（MIT）、清華大學和AI新創公司MyShell的研究團隊推出了OpenVoice——一種開源語音克隆解決方案，能提供近乎即時的結果，並具備其他平台所無法比擬的細緻控制功能。

MyShell在最近的一篇X上的文章中表示：“用絕無僅有的精確度克隆聲音，僅需一小段音檔即可調整音調、情感、口音、節奏、停頓及語調。” 該公司還分享了研究論文連結，詳細說明了OpenVoice的開發過程，以及用戶體驗的入口，包括需要註冊的MyShell網頁應用程式和不需帳號的HuggingFace。

在一封電子郵件中，來自MIT和MyShell的首席研究員秦增逸強調了該專案的目標：“MyShell旨在惠及研究社群。OpenVoice只是個開始，未來我們將提供資助、數據集和計算資源來支持開源研究。我們的核心使命是‘人工智慧為所有人’。”

對於OpenVoice的創建動機，秦解釋道：“語言、視覺和聲音是未來通用人工智慧（AGI）的三個關鍵模態。雖然已有各種開源模型用于語言和視覺，但缺乏強大、即時的語音克隆模型來支持自定義，這就是我們啟動該專案的原因。”

使用OpenVoice

在使用HuggingFace進行非正式測試時，我迅速生成了一個令人信服（雖然有些機械化）的聲音複製，僅利用隨機語音。與其他語音克隆應用不同，OpenVoice允許我自由發言，而無需遵守特定的劇本。短短幾秒鐘，我便製作出一個能精確重讀我的文本提示的聲音克隆。此外，我可以在不同的情感預設中調整克隆聲音的“風格”，如快樂、悲傷或憤怒，從而有效改變音調。以下是我使用OpenVoice設置為“友好”音調的聲音克隆示例。

OpenVoice的創建過程

OpenVoice的創建者——秦增逸、清華大學的趙聞亮和于煦敏，以及MyShell的孫鑫——在其研究論文中概述了他們的研究方法。OpenVoice由兩個主要的AI模型組成：文本轉語音（TTS）模型和音調轉換器。

TTS模型負責管理風格參數和語言，其訓練數據來自30,000個句子，這些句子由兩位英語母語者（美國和英國口音）、一位中文母語者和一位日文母語者讀出，每位講者都標註了特定情感。它學習了聲調、節奏和停頓等細微差別。

音調轉換器則基於超過300,000個音頻樣本進行訓練，這些樣本來自超過20,000位講者。通過將語音轉換為音素——區分單詞的獨特聲音——並以向量嵌入的形式表示。

透過為TTS模型提供“基礎講者”並結合用戶輸入的音調信息，這些模型能夠複製用戶的聲音並調整其情感表達。OpenVoice研究中的圖示展示了這些模型的整合方式。

即使方法在概念上相對簡單，但這種方法效率高且所需的計算資源遠低於Meta的Voicebox等競爭對手。秦表示：“我們的目標是開發最靈活的即時語音克隆模型。這種靈活性意味著對風格、情感、口音的控制，並能適應任何語言。以往，由於複雜性，這樣的全面功能是無法達成的。通過解耦管道過程，我們以簡單獲得有效的結果。”

OpenVoice的背景

MyShell於2023年成立，斬獲560萬美元的種子輪融資，由INCE Capital領投，Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC和OP Crypto也進行了投資，據《SaaS新聞》報導，其用戶已超過40萬。在研究過程中，我觀察到其Discord伺服器上的用戶超過61,000人。

MyShell自稱是一個“去中心化的綜合平台，旨在發現、創建和質押AI原生應用”。除了OpenVoice外，他們的網頁應用還提供各種具有獨特個性的文字AI角色和機器人，類似於Character.AI，並包括動畫GIF製作工具以及根據流行IP生成的用戶創建的角色扮演遊戲（RPG）。

關於營收，MyShell對網頁應用的用戶收取月訂閱費，同時對想在應用內推廣產品的第三方機器人創作者收取費用。他們還對AI訓練數據收取一定費用。

轉型銀行業：提升數位客戶旅程，超越簡單交易

最高法院年終報告探討人工智慧在司法系統的未來