革命性类型化技术让生成式人工智能传达人类情感

语言是人类互动的基础,而情感赋予了语言更深远的意义。表达快乐、悲伤、愤怒和沮丧等情绪不仅丰富了我们的信息,也加深了彼此的联系。

尽管生成性人工智能在多个领域取得了进展,但在捕捉人类情感的细微差别方面仍显不足。一家名为Typecast的创新初创企业,推出了跨声道情感传输技术,旨在改变这一现状。该技术使用户能够将他人声音中捕获的情感融入自己的录音中,同时保留其独特的声音风格。这项技术简化了内容创作过程,并通过Typecast的“我的声音生成器”提供。

Typecast的首席执行官兼联合创始人Taesu Kim表示:“AI演员尚未完全捕捉到人类情感的广度,这是他们最大的限制。”通过Typecast的跨声道情感传输,“任何人都可以使用具有真实情感深度的AI演员,仅需一小段声音样本。”

解读情感

人类情感通常被划分为七种类型:快乐、悲伤、愤怒、恐惧、惊讶和厌恶,源于普遍的面部表情。然而,这些类别在生成语音时无法完整表达情感的全谱。Kim在专访中解释道:“说话并不仅仅是将文本转换为语音。人类可以用无数种方式传达同一句话。”不同的情感甚至可以在同一句话、同一个词中体现。

例如,问道:“你怎么能对我这样?”根据情感指令的不同,这句话的语气可以完全不同:从失望到愤怒。即使是复杂的情感,例如“因为父亲去世而感到悲伤,但脸上却挂着微笑”,也难以单一归类。研究人员,包括Kim,强调,传达多样化情感的能力使对话更为丰富。

情感文本转语音的局限性

文本转语音技术已经快速发展,特别是通过ChatGPT、LaMDA、LLaMA、Bard等模型。然而,实现带有情感的文本转语音仍具有挑战性,通常需要大量的标注数据,而这些数据难以获取。传统上,记录各种情感的细微差别是一个耗时的过程。Kim指出:“在保持情感的情况下,记录长句子是极其困难的。”

在传统的情感语音合成中,每个训练数据必须带有情感标签,这往往需要额外的编码或参考音频。当并非每种情感或说话者都有数据可用时,就会出现标记错误,难以捕获情感强度。

跨声道情感传输还面临着更大的挑战,尤其是在为不同说话者赋予未见情感时。当前技术在中性说话者尝试生成情感语音时,常常产生不自然的结果。

利用深度神经网络与无监督学习创新

为应对这些挑战,研究人员将情感标签纳入生成性深度神经网络,这是一种突破性的方法。然而,仅此还不足以有效表达复杂情感和说话风格。随后开发了一种无监督学习算法,从庞大的数据库中识别说话风格和情感。该模型在没有任何情感标签的情况下进行训练,从而从语音数据中提取有价值的表示。虽然这些表示可能无法被人类解读,但它们可以为文本转语音算法提供情感表达的支持。

此外,还进一步训练了感知神经网络,将自然语言的情感描述转换为可用的表示。Kim表示:“有了这项技术,用户不再需要录制数百种不同的说话风格或情感;系统可以从大型情感语音数据库中学习。”

轻松适应声线特征

研究人员成功实现了“可转移和可控的情感语音合成”,利用潜在表示技术。通过领域对抗训练和循环一致性损失等方法,能够将说话者特征与说话风格解耦。系统通过分析大量录制的人的声音,学习情感模式、语调和语气。该方法仅需少量标注样本即可将情感转移到中性说话者身上,并能通过直观的比例值控制情感强度。

这一创新使用户能够录制简短的声音片段,应用多种情感而不改变其独特的声音特 Identity。仅需录制五分钟的语音,他们就能在正常说话时表达快乐、悲伤和愤怒等情感。Typecast的技术已被三星证券和LG电子等知名公司应用,自2017年成立以来,该公司已融资2680万美元。目前,Typecast正在探索其语音合成技术在面部表情中的应用。

可控性在生成性AI中的重要性

Kim指出,随着媒体形态的快速演变,文本博客的流行正逐渐转向短视频,这促使个人和公司创造比以往更多的音频和视频内容。“高质量的表现性声音对于传达企业信息至关重要,”Kim强调。生产效率是关键,因为人工演员的手动工作往往速度缓慢。“生成性AI中的可控性对于内容创作至关重要。这些技术使个人和企业能够释放创造潜力,从而提高生产力。”

Most people like

Find AI tools in YBX