解鎖未來:MyShell推出OpenVoice,全新開源AI語音克隆模型

如ElevenLabs等新創公司已投入數百萬美元開發專有演算法和語音克隆的AI軟體,該軟體能夠複製使用者的聲音。如今,麻省理工學院(MIT)、清華大學和AI新創公司MyShell的研究團隊推出了OpenVoice——一種開源語音克隆解決方案,能提供近乎即時的結果,並具備其他平台所無法比擬的細緻控制功能。

MyShell在最近的一篇X上的文章中表示:“用絕無僅有的精確度克隆聲音,僅需一小段音檔即可調整音調、情感、口音、節奏、停頓及語調。” 該公司還分享了研究論文連結,詳細說明了OpenVoice的開發過程,以及用戶體驗的入口,包括需要註冊的MyShell網頁應用程式和不需帳號的HuggingFace。

在一封電子郵件中,來自MIT和MyShell的首席研究員秦增逸強調了該專案的目標:“MyShell旨在惠及研究社群。OpenVoice只是個開始,未來我們將提供資助、數據集和計算資源來支持開源研究。我們的核心使命是‘人工智慧為所有人’。”

對於OpenVoice的創建動機,秦解釋道:“語言、視覺和聲音是未來通用人工智慧(AGI)的三個關鍵模態。雖然已有各種開源模型用于語言和視覺,但缺乏強大、即時的語音克隆模型來支持自定義,這就是我們啟動該專案的原因。”

使用OpenVoice

在使用HuggingFace進行非正式測試時,我迅速生成了一個令人信服(雖然有些機械化)的聲音複製,僅利用隨機語音。與其他語音克隆應用不同,OpenVoice允許我自由發言,而無需遵守特定的劇本。短短幾秒鐘,我便製作出一個能精確重讀我的文本提示的聲音克隆。此外,我可以在不同的情感預設中調整克隆聲音的“風格”,如快樂、悲傷或憤怒,從而有效改變音調。以下是我使用OpenVoice設置為“友好”音調的聲音克隆示例。

OpenVoice的創建過程

OpenVoice的創建者——秦增逸、清華大學的趙聞亮和于煦敏,以及MyShell的孫鑫——在其研究論文中概述了他們的研究方法。OpenVoice由兩個主要的AI模型組成:文本轉語音(TTS)模型和音調轉換器。

TTS模型負責管理風格參數和語言,其訓練數據來自30,000個句子,這些句子由兩位英語母語者(美國和英國口音)、一位中文母語者和一位日文母語者讀出,每位講者都標註了特定情感。它學習了聲調、節奏和停頓等細微差別。

音調轉換器則基於超過300,000個音頻樣本進行訓練,這些樣本來自超過20,000位講者。通過將語音轉換為音素——區分單詞的獨特聲音——並以向量嵌入的形式表示。

透過為TTS模型提供“基礎講者”並結合用戶輸入的音調信息,這些模型能夠複製用戶的聲音並調整其情感表達。OpenVoice研究中的圖示展示了這些模型的整合方式。

即使方法在概念上相對簡單,但這種方法效率高且所需的計算資源遠低於Meta的Voicebox等競爭對手。秦表示:“我們的目標是開發最靈活的即時語音克隆模型。這種靈活性意味著對風格、情感、口音的控制,並能適應任何語言。以往,由於複雜性,這樣的全面功能是無法達成的。通過解耦管道過程,我們以簡單獲得有效的結果。”

OpenVoice的背景

MyShell於2023年成立,斬獲560萬美元的種子輪融資,由INCE Capital領投,Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC和OP Crypto也進行了投資,據《SaaS新聞》報導,其用戶已超過40萬。在研究過程中,我觀察到其Discord伺服器上的用戶超過61,000人。

MyShell自稱是一個“去中心化的綜合平台,旨在發現、創建和質押AI原生應用”。除了OpenVoice外,他們的網頁應用還提供各種具有獨特個性的文字AI角色和機器人,類似於Character.AI,並包括動畫GIF製作工具以及根據流行IP生成的用戶創建的角色扮演遊戲(RPG)。

關於營收,MyShell對網頁應用的用戶收取月訂閱費,同時對想在應用內推廣產品的第三方機器人創作者收取費用。他們還對AI訓練數據收取一定費用。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles