今日,總部位於杜拜的Camb AI,一家專注於AI驅動內容本地化技術的初創企業,推出了Mars5,這是一款先進的AI語音克隆模型。雖然許多模型如ElevenLabs能創建數字語音複製,但Camb AI的Mars5以卓越的真實性脫穎而出。根據公司提供的初步樣本,Mars5不僅模仿原聲,還能捕捉細膩的韻律元素,如節奏、情感和語調。
與ElevenLabs的36種語言相比,Camb AI支持近三倍的語言,提供140多種語言,包括不常見的冰島語和斯瓦希里語。然而,針對英語的開源版本已於今日在GitHub上發布,而更廣泛的語言支持則可通過Camb的付費Studio獲得。
“Mars5在僅用幾秒鐘的輸入下所捕捉的韻律和真實性是空前的,標誌著語音技術的一個突破性時刻,”聯合創始人兼首席技術官Akshat Prakash表示。
語音克隆與文本轉語音的整合
傳統上,語音克隆和文本轉語音是兩個獨立的過程:語音克隆從音頻樣本創建合成聲音,而文本轉語音則使用該聲音來讀取文本。然而,Mars5將這兩種功能整合為一個平台。用戶只需上傳一個持續幾秒鐘到一分鐘的音頻文件並提供要合成的文本。該模型會分析音頻,復制演講者的聲音、風格、情感和含義,將文本轉換為自然流暢的語音。
Camb AI聲稱Mars5能靈活捕捉廣泛的情感色調,應對複雜的語音情境,如沮喪、命令、冷靜或熱情。這種多功能性使Mars5成為處理傳統挑戰性內容(如體育解說、電影和動漫)的理想選擇。
為實現如此高的韻律水準,Mars5結合了一個約750M參數的自回歸模型和一個約450M參數的非自回歸多項式擴散模型,並使用6kbps的編碼器令牌。Prakash闡述道:“AR模型預測編碼特徵的基本碼本值,而NAR模型對這些預測進行精細調整,‘修補’剩餘的碼本條目。這種方法使用去噪擴散過程以提高準確性。”
與其他模型的性能比較
雖然具體的基準統計尚待發布,但初步測試表明Mars5在語音合成模型中表現優於Metavoice和ElevenLabs,通常能產生與原聲相比更為相似的結果。Prakash補充說:“儘管ElevenLabs的訓練數據集超過50萬小時,我們的模型設計能更有效地捕捉語音的細微差別。隨著我們擴大數據集並進一步訓練Mars5,並在GitHub上發布更新,我們預見將有更大的改進。”
Camb AI還在準備推出一款名為Boli的開源模型,旨在提供了解上下文、確保語法準確和捕捉口語細微差異的翻譯。“Boli在提供細緻、文化相關的翻譯方面優於傳統翻譯工具,如Google翻譯,特別是對於低到中資源語言。反饋表明Boli顯著超越了包括ChatGPT在內的主流工具。”Prakash表示。
目前,Mars5和Boli均在Camb自有平台Camb Studio上支持140種語言,該公司向企業、中小企業和開發人員提供這些能力的API。Camb AI與美國職業足球大聯盟、澳大利亞網球協會、枫叶体育与娱乐公司以及多家知名影視音樂製作公司和政府機構合作。
值得注意的是,Camb AI創下歷史,成功地將一場美國職業足球大聯盟比賽即時翻譯成四種語言,持續超過兩個小時,並將澳大利亞公開賽的賽後記者會翻譯成多種語言,將心理驚悚片《三》從阿拉伯語翻譯為普通話。