革命性类型化技术让生成式人工智能传达人类情感

Home AI News CN 革命性类型化技术让生成式人工智能传达人类情感

Updated on 十一月 1 2024

语言是人类互动的基础，而情感赋予了语言更深远的意义。表达快乐、悲伤、愤怒和沮丧等情绪不仅丰富了我们的信息，也加深了彼此的联系。

尽管生成性人工智能在多个领域取得了进展，但在捕捉人类情感的细微差别方面仍显不足。一家名为Typecast的创新初创企业，推出了跨声道情感传输技术，旨在改变这一现状。该技术使用户能够将他人声音中捕获的情感融入自己的录音中，同时保留其独特的声音风格。这项技术简化了内容创作过程，并通过Typecast的“我的声音生成器”提供。

Typecast的首席执行官兼联合创始人Taesu Kim表示：“AI演员尚未完全捕捉到人类情感的广度，这是他们最大的限制。”通过Typecast的跨声道情感传输，“任何人都可以使用具有真实情感深度的AI演员，仅需一小段声音样本。”

解读情感

人类情感通常被划分为七种类型：快乐、悲伤、愤怒、恐惧、惊讶和厌恶，源于普遍的面部表情。然而，这些类别在生成语音时无法完整表达情感的全谱。Kim在专访中解释道：“说话并不仅仅是将文本转换为语音。人类可以用无数种方式传达同一句话。”不同的情感甚至可以在同一句话、同一个词中体现。

例如，问道：“你怎么能对我这样？”根据情感指令的不同，这句话的语气可以完全不同：从失望到愤怒。即使是复杂的情感，例如“因为父亲去世而感到悲伤，但脸上却挂着微笑”，也难以单一归类。研究人员，包括Kim，强调，传达多样化情感的能力使对话更为丰富。

情感文本转语音的局限性

文本转语音技术已经快速发展，特别是通过ChatGPT、LaMDA、LLaMA、Bard等模型。然而，实现带有情感的文本转语音仍具有挑战性，通常需要大量的标注数据，而这些数据难以获取。传统上，记录各种情感的细微差别是一个耗时的过程。Kim指出：“在保持情感的情况下，记录长句子是极其困难的。”

在传统的情感语音合成中，每个训练数据必须带有情感标签，这往往需要额外的编码或参考音频。当并非每种情感或说话者都有数据可用时，就会出现标记错误，难以捕获情感强度。

跨声道情感传输还面临着更大的挑战，尤其是在为不同说话者赋予未见情感时。当前技术在中性说话者尝试生成情感语音时，常常产生不自然的结果。

利用深度神经网络与无监督学习创新

为应对这些挑战，研究人员将情感标签纳入生成性深度神经网络，这是一种突破性的方法。然而，仅此还不足以有效表达复杂情感和说话风格。随后开发了一种无监督学习算法，从庞大的数据库中识别说话风格和情感。该模型在没有任何情感标签的情况下进行训练，从而从语音数据中提取有价值的表示。虽然这些表示可能无法被人类解读，但它们可以为文本转语音算法提供情感表达的支持。

此外，还进一步训练了感知神经网络，将自然语言的情感描述转换为可用的表示。Kim表示：“有了这项技术，用户不再需要录制数百种不同的说话风格或情感；系统可以从大型情感语音数据库中学习。”

轻松适应声线特征

研究人员成功实现了“可转移和可控的情感语音合成”，利用潜在表示技术。通过领域对抗训练和循环一致性损失等方法，能够将说话者特征与说话风格解耦。系统通过分析大量录制的人的声音，学习情感模式、语调和语气。该方法仅需少量标注样本即可将情感转移到中性说话者身上，并能通过直观的比例值控制情感强度。

这一创新使用户能够录制简短的声音片段，应用多种情感而不改变其独特的声音特 Identity。仅需录制五分钟的语音，他们就能在正常说话时表达快乐、悲伤和愤怒等情感。Typecast的技术已被三星证券和LG电子等知名公司应用，自2017年成立以来，该公司已融资2680万美元。目前，Typecast正在探索其语音合成技术在面部表情中的应用。

可控性在生成性AI中的重要性

Kim指出，随着媒体形态的快速演变，文本博客的流行正逐渐转向短视频，这促使个人和公司创造比以往更多的音频和视频内容。“高质量的表现性声音对于传达企业信息至关重要，”Kim强调。生产效率是关键，因为人工演员的手动工作往往速度缓慢。“生成性AI中的可控性对于内容创作至关重要。这些技术使个人和企业能够释放创造潜力，从而提高生产力。”

戴尔与Hugging Face合作简化大规模语言模型部署

生成性人工智能如何塑造身份与访问管理的未来

Most people like

PixVerse

4.1M

AI模型能够利用多模态输入生成引人入胜的视频内容。

生成式人工智能文字转视频工具

Chub

7.1M

管理和协作语言模型的字符是现代人工智能的核心要素之一。随着技术的不断进步，如何有效地管理这些模型以及促进团队之间的协作成为了一个关键议题。无论是在企业应用还是学术研究中，优化语言模型的管理和协作能力都至关重要。本篇文章将深入探讨这一主题，为您提供实用的见解和策略，帮助您在语言模型的应用中取得更大成功。

角色 AI角色生成器

aiCarousels.com

132.8K

轻松使用aiCarousels.com创建引人注目的社交媒体走马灯，提升您的在线互动体验。

轮播制作器 AI社交媒体助手

Paperguide

112.7K

探索基于 AI 的研究平台，优化您的阅读、写作和研究管理体验。

人工智能研究平台文本摘要工具

Find AI tools in YBX