Resemble AI推出快速語音克隆:語音技術的重大突破
Resemble AI最新推出的快速語音克隆功能,顛覆了語音克隆的生成過程,專為企業用戶設計,致力於提升人工智能語音領域的應用。
現在就可以使用快速語音克隆,僅需約一分鐘即可從短音頻範本中複製聲音。這一創新讓語音克隆技術變得更加易於使用,使用者能夠為其應用程序創建自定義的聲音。Resemble AI預期此技術將在內容創作、個性化和可及性等領域產生重大影響。
快速語音克隆的運作原理
用戶可以通過上傳清晰的音頻樣本,或在Resemble的網絡平台上錄製最多一分鐘的語音,來創建聲音的數字複製品。此前,該過程需錄製約25個句子或上傳至少三分鐘的語音內容,而克隆需要約一小時時間。使用快速語音克隆,用戶只需最少10秒至一分鐘的音頻樣本。平台的先進機器學習算法能即時捕捉所有聲音參數,包括口音,並在分鐘內生成克隆聲音。
Resemble AI的創新算法能有效複製各種口音的細微差異,使得即使是短短的樣本也能準確生成聲音。最近,公司在部落格中突出了這一能力,並展示了與微軟的VALL-E和XTTS-v2語音克隆模型的比較,結果令人印象深刻。
測試技術
在我們的測試中,系統要求用戶錄製至少三個長句子,不支持較短的樣本。雖然處理速度快,但對印度口音的識別存在困難,默認為美式英語樣本,影響了生成聲音的口音。然而,該公司保證快速語音克隆最終將支持大多數英語口音。
Resemble AI將繼續提供傳統克隆功能,即專業語音克隆。儘管此方法的輸入要求比較高且處理時間較長,但支持所有英語口音,包括文本轉語音和語音轉語音功能,而快速語音克隆則僅專注於文本轉語音生成。
行業應用
憑藉快速處理和最小樣本需求,Resemble AI預期快速語音克隆將在內容創作者中得到更廣泛的採用。這項技術可用於生成播報、配音、旁白以及播客、視頻、有聲書和電子學習材料的對話。企業可利用這一創新提升可及性並個性化用戶體驗。
例如,一款健身應用可以利用快速語音克隆創建一個AI教練,用熟悉的聲音與用戶交流,提供量身定制的鼓勵和指導。同樣,虛擬助手也可以根據用戶偏好調整聲音,實現更個性化的互動。
市場競爭
值得注意的是,Resemble AI並不是唯一加速語音克隆的公司。ElevenLabs提供的即時語音克隆則要求至少一分鐘的清晰音頻,並能幾乎即時生成聲音。與Resemble類似,ElevenLabs也提供支持多種語言和口音的專業版本。
目前,Resemble AI允許用戶創建一個免費的語音克隆。若需額外克隆,用戶需訂閱每月起價29美元的付費計劃,選擇可達每月499美元的高級方案,此外還有按需支付的個人計劃和可定制的企業定價供應。
隨著這些進展,Resemble AI正透過創新的語音技術為創意和商業機會鋪平道路。