开启未来:MyShell推出新一代开源AI语音克隆模型OpenVoice

创业公司如ElevenLabs已经投资数百万美元开发专有算法和AI软件进行声音克隆,这种技术能够创建复制用户声音的音频程序。现在,麻省理工学院(MIT)、北京清华大学的研究人员以及AI初创公司MyShell的团队推出了OpenVoice——一种开源声音克隆解决方案,能够提供几乎即时的结果,并提供其他平台所不具备的细致控制。

MyShell在其近期的社交媒体发布中指出:“只需一个小音频片段,便可以无与伦比的精确度克隆声音,调整语调、情感、口音、节奏、停顿和语调。”公司还分享了他们研究论文的链接,详细介绍了OpenVoice的开发历程,并提供了用户试用的接入途径:MyShell网络应用(需用户账号)和HuggingFace(无需账号的公共访问)。

在一封电子邮件中,MIT和MyShell的首席研究员秦增毅强调了项目的目标:“MyShell旨在惠及研究界。OpenVoice仅仅是个开始,未来我们将提供资助、数据集和计算资源,以支持开源研究。我们的核心使命是‘让AI服务于所有人’。”

关于OpenVoice的动机,秦增毅解释道:“语言、视觉和声音是未来通用人工智能(AGI)三大关键领域。目前已有多种开源模型用于语言和视觉,但缺乏一个强大且即时的声音克隆模型来进行定制,因此我们开展了这个项目。”

使用OpenVoice

在HuggingFace进行非正式测试时,我迅速生成了一个令人信服的(虽然有些机械化的)声音克隆,使用的是随机的语音。与其他声音克隆应用不同,OpenVoice让我能够自由发言,而无须遵循特定的脚本。在几秒钟内,我得到了一个能准确读取我的文本提示的声音克隆。

此外,我还可以针对不同的情感预设调整克隆的“风格”,如快乐、悲伤或愤怒,有效地改变声音的语气。以下是我使用OpenVoice设置为“友好”语气的声音克隆示例。

OpenVoice的创建过程

OpenVoice的创建者——秦增毅、清华大学的赵文亮和余旭敏,以及MyShell的孙欣——在研究论文中概述了他们的方法。OpenVoice由两个关键的AI模型组成:文本到语音(TTS)模型和音调转换器。

TTS模型管理风格参数和语言,基于来自两位讲英语(美式和英式口音)、一位讲中文和一位讲日语的发言者的30,000句句子进行训练,并为每种句子标注特定情感。这一模型学习语调、节奏和停顿的细微差别。

音调转换器则在超过20,000位发言者的300,000多个音频样本上进行训练。这些样本将口语转化为音素——区分单词的独特音,表示为向量嵌入。

通过使用“基准发言者”与用户输入的音调信息结合,这些模型能够复制用户的声音并调整其情感表达。OpenVoice研究中的图解展示了这些模型如何集成。

尽管这一概念简单,但该方法高效且所需计算资源显著少于Meta的Voicebox等竞争对手。秦增毅表示:“我们旨在开发最灵活的即时声音克隆模型。这种灵活性意味着对风格、情感、口音的控制,并能适应任何语言。之前,由于其复杂性,这种全面功能是无法实现的。通过去耦管道过程,我们在保持简单性的同时取得了有效成果。”

OpenVoice的背后

MyShell成立于2023年,通过INCE Capital领投的560万美元种子轮融资,获得了Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC和OP Crypto等机构的支持,已有超过40万用户,SaaS News报道称。研究中,我注意到他们的Discord服务器上有超过61,000名用户。

MyShell自我描述为“一个去中心化的综合性平台,用于发现、创建和质押AI原生应用”。除了OpenVoice,他们的网络应用还提供多种文本基础的AI角色和机器人,每个角色都有不同的个性,类似于Character.AI,并包括动画GIF制作工具和基于热门特许经营的用户自创RPG。

在盈利模式方面,MyShell对网络应用用户收取月度订阅费,并对希望在应用内推广产品的第三方机器人创作者收取费用。同时,他们还为AI训练数据收费。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles