語言是人類互動的基礎,而情感則是其核心。表達幸福、悲傷、憤怒和挫折等情感,不僅增強了我們的信息表達,還加深了彼此的連結。儘管生成式人工智慧在各個領域取得了進展,但在捕捉人類情感的微妙之處上仍存在困難。
Typecast,這家創新的初創公司,致力於透過其新的跨說話者情感轉移技術來改變這一現狀。這項功能使得用戶能夠將他人聲音中捕捉到的情感融入自己的錄音中,並保持獨特的聲音風格。該技術簡化了內容創作,並通過Typecast的My Voice Maker提供。
Neosapience和Typecast的首席執行官及聯合創始人金泰洙表示:“人工智慧演員尚未完全捕捉到人類的情感範圍,這是他們最大的限制因素。” 使用Typecast的跨說話者情感轉移功能,“任何人都可以通過少量的聲音樣本來使用具備真實情感深度的AI演員。”
解碼情感
人類情感通常可分為七種類別:幸福、悲傷、憤怒、恐懼、驚訝和厭惡,這些都是基於普遍的面部表情。然而,這些範疇無法充分表達生成語音中的情感多樣性。金泰洙在專訪中解釋:“說話並不是單純地將文本轉換為語音。人類可以用無數種方式表達同一句話。”同一句話,甚至同一個字,內中都能蘊含不同的情感。
例如,提問“你怎麼能這樣對我?”的口吻,會因情感的驅動而異,可能表達失望或憤怒等情緒。即使是複雜的情感,如“因為她的父親去世而感到悲傷,但臉上卻綻放著微笑”,也無法單一歸類。研究人員,包括金泰洙強調,傳達多樣情感的能力能夠創造更豐富的對話。
情感語音合成的局限性
文本到語音技術已快速進步,特別是通過ChatGPT、LaMDA、LLama和Bard等模型。不過,實現情感語音合成仍具挑戰——通常需要大量標記數據,而這些數據難以獲得。記錄各種情感的細微差異一向是個耗時的過程。
金泰洙指出:“在持續保留情感的情況下,錄製大量句子是極其困難的。”在傳統的情感語音合成中,每一訓練數據都必須有情感標籤,通常需要額外的編碼或參考音頻。在每種情感或講話者的數據都難以獲得時,會導致錯誤標籤及情感強度捕捉的困難。
跨說話者情感轉移在分配未知情感給不同講話者時呈現額外挑戰。當中性講話者嘗試表達情感語音時,現有技術常常產生不自然的結果。
利用深度神經網路和無監督學習的創新
為了解決這些挑戰,研究人員將情感標籤整合到生成式深度神經網路中,這一創新技術雖具突破性,但仍無法完全表達複雜情感及說話風格。接著,他們開發了一種無監督學習演算法,從龐大的數據庫中識別講話風格和情感。訓練過程不需要任何情感標籤,使模型能從語音數據中導出寶貴的表徵。這些表徵雖可能無法被人類理解,卻能為文本到語音算法提供情感表達的依據。
進一步的進展包括訓練感知神經網絡,將自然語言的情感描述轉化為可用的表徵。金泰洙表示:“有了這項技術,用戶不再需要錄製數百種不同的說話風格或情感;系統能夠從廣泛的情感語音數據庫中學習。”
輕鬆適應聲音特徵
研究人員成功實現了“可轉移且可控的情感語音合成”,利用潛在表徵。像領域對抗訓練和循環一致性損失等技術,使說話者特徵與說話風格的解耦成為可能。系統通過分析大量錄製的人聲來學習情感模式、音調和語調。該方法僅需幾個標籤樣本,即可有效將情感轉移至中性講話者,並通過直觀的標量值控制情感強度。
這項創新使得用戶能夠錄製簡短的聲音片段,輕鬆地表達幸福、悲傷、憤怒等情感,同時不改變其獨特的聲音身份。用戶只需錄製五分鐘的講話,便能在正常說話時表達出各種情感。
Typecast的技術已受到包括Samsung Securities和LG Electronics等知名公司的青睞,該初創公司自2017年成立以來已籌集到2680萬美元。當前,Typecast也在探索其語音合成技術在面部表情上的應用。
生成式人工智慧中的可控性重要性
在快速變化的媒體環境中,金泰洙指出,文本博客的流行逐漸轉向短視頻,迫使個人和公司比以往任何時候都要創造更多的音頻和視頻內容。“高品質的表達性聲音對於傳遞企業訊息至關重要,”金泰洙斷言。
生產效率至關重要,因為人工演員的手動工作往往過於緩慢。“生成式人工智慧的可控性對內容創作至關重要。這些技術使個人和公司能夠釋放創造潛力,同時提高生產力。”