革命性的 Typecast 技術使生成式人工智慧能夠傳達人類情感

Home AI新聞革命性的 Typecast 技術使生成式人工智慧能夠傳達人類情感

Updated on 十一月 1 2024

語言是人類互動的基礎，而情感則是其核心。表達幸福、悲傷、憤怒和挫折等情感，不僅增強了我們的信息表達，還加深了彼此的連結。儘管生成式人工智慧在各個領域取得了進展，但在捕捉人類情感的微妙之處上仍存在困難。

Typecast，這家創新的初創公司，致力於透過其新的跨說話者情感轉移技術來改變這一現狀。這項功能使得用戶能夠將他人聲音中捕捉到的情感融入自己的錄音中，並保持獨特的聲音風格。該技術簡化了內容創作，並通過Typecast的My Voice Maker提供。

Neosapience和Typecast的首席執行官及聯合創始人金泰洙表示：“人工智慧演員尚未完全捕捉到人類的情感範圍，這是他們最大的限制因素。” 使用Typecast的跨說話者情感轉移功能，“任何人都可以通過少量的聲音樣本來使用具備真實情感深度的AI演員。”

解碼情感

人類情感通常可分為七種類別：幸福、悲傷、憤怒、恐懼、驚訝和厭惡，這些都是基於普遍的面部表情。然而，這些範疇無法充分表達生成語音中的情感多樣性。金泰洙在專訪中解釋：“說話並不是單純地將文本轉換為語音。人類可以用無數種方式表達同一句話。”同一句話，甚至同一個字，內中都能蘊含不同的情感。

例如，提問“你怎麼能這樣對我？”的口吻，會因情感的驅動而異，可能表達失望或憤怒等情緒。即使是複雜的情感，如“因為她的父親去世而感到悲傷，但臉上卻綻放著微笑”，也無法單一歸類。研究人員，包括金泰洙強調，傳達多樣情感的能力能夠創造更豐富的對話。

情感語音合成的局限性

文本到語音技術已快速進步，特別是通過ChatGPT、LaMDA、LLama和Bard等模型。不過，實現情感語音合成仍具挑戰——通常需要大量標記數據，而這些數據難以獲得。記錄各種情感的細微差異一向是個耗時的過程。

金泰洙指出：“在持續保留情感的情況下，錄製大量句子是極其困難的。”在傳統的情感語音合成中，每一訓練數據都必須有情感標籤，通常需要額外的編碼或參考音頻。在每種情感或講話者的數據都難以獲得時，會導致錯誤標籤及情感強度捕捉的困難。

跨說話者情感轉移在分配未知情感給不同講話者時呈現額外挑戰。當中性講話者嘗試表達情感語音時，現有技術常常產生不自然的結果。

利用深度神經網路和無監督學習的創新

為了解決這些挑戰，研究人員將情感標籤整合到生成式深度神經網路中，這一創新技術雖具突破性，但仍無法完全表達複雜情感及說話風格。接著，他們開發了一種無監督學習演算法，從龐大的數據庫中識別講話風格和情感。訓練過程不需要任何情感標籤，使模型能從語音數據中導出寶貴的表徵。這些表徵雖可能無法被人類理解，卻能為文本到語音算法提供情感表達的依據。

進一步的進展包括訓練感知神經網絡，將自然語言的情感描述轉化為可用的表徵。金泰洙表示：“有了這項技術，用戶不再需要錄製數百種不同的說話風格或情感；系統能夠從廣泛的情感語音數據庫中學習。”

輕鬆適應聲音特徵

研究人員成功實現了“可轉移且可控的情感語音合成”，利用潛在表徵。像領域對抗訓練和循環一致性損失等技術，使說話者特徵與說話風格的解耦成為可能。系統通過分析大量錄製的人聲來學習情感模式、音調和語調。該方法僅需幾個標籤樣本，即可有效將情感轉移至中性講話者，並通過直觀的標量值控制情感強度。

這項創新使得用戶能夠錄製簡短的聲音片段，輕鬆地表達幸福、悲傷、憤怒等情感，同時不改變其獨特的聲音身份。用戶只需錄製五分鐘的講話，便能在正常說話時表達出各種情感。

Typecast的技術已受到包括Samsung Securities和LG Electronics等知名公司的青睞，該初創公司自2017年成立以來已籌集到2680萬美元。當前，Typecast也在探索其語音合成技術在面部表情上的應用。

生成式人工智慧中的可控性重要性

在快速變化的媒體環境中，金泰洙指出，文本博客的流行逐漸轉向短視頻，迫使個人和公司比以往任何時候都要創造更多的音頻和視頻內容。“高品質的表達性聲音對於傳遞企業訊息至關重要，”金泰洙斷言。

生產效率至關重要，因為人工演員的手動工作往往過於緩慢。“生成式人工智慧的可控性對內容創作至關重要。這些技術使個人和公司能夠釋放創造潛力，同時提高生產力。”

Dell 與 Hugging Face 聯手簡化大型語言模型的部署流程

生成式人工智慧如何塑造身份與存取管理的未來

Most people like

OneClickHuman

86.1K

在當今的數位環境中，創造引人入勝的內容以共鳴讀者變得比以往更加重要。使人工智慧生成的內容更具人性化，不僅提升可讀性，還能促進與觀眾之間的真摯連結。透過融入易於理解的語言和對話式語氣，我們可以將技術性資訊轉化為易於接觸的敘事。這種方式不僅吸引注意力，還鼓勵更深層的理解，讓您的內容在資訊的海洋中脫穎而出。擁抱人性化人工智慧內容的藝術，提升您的寫作並有效地吸引讀者。

人工智慧轉換為人類內容 AI Content Generator

Sembly AI

74.4K

Sembly AI 是一款創新的智能助手，旨在高效記錄和總結會議，讓協作變得更加便捷和富有成效。

AI 團隊助手 AI Meeting Assistant

HitPaw Edimakor

2.4M

介紹一款配備尖端功能的AI視頻編輯器，旨在提升您的視頻製作體驗。這款創新工具利用人工智能的強大能力，簡化編輯過程，讓您輕鬆創作出驚人的視頻。無論您是內容創作者、行銷專家還是導演，我們的先進視頻編輯器都能簡化複雜任務，增強您的編輯能力，讓您能專注於講述您的故事。探索視頻編輯的未來，將您的創意願景化為現實。

影片剪輯 AI Video Editor

SpicyChat AI

25.6M

與 SpicyChat AI 一起互動並創造生動的 AI 角色。體驗前所未有的互動敘事刺激！

聊天機器人 AI Chatbot

Find AI tools in YBX