开启未来：MyShell推出新一代开源AI语音克隆模型OpenVoice

Home AI News CN 开启未来：MyShell推出新一代开源AI语音克隆模型OpenVoice

创业公司如ElevenLabs已经投资数百万美元开发专有算法和AI软件进行声音克隆，这种技术能够创建复制用户声音的音频程序。现在，麻省理工学院（MIT）、北京清华大学的研究人员以及AI初创公司MyShell的团队推出了OpenVoice——一种开源声音克隆解决方案，能够提供几乎即时的结果，并提供其他平台所不具备的细致控制。

MyShell在其近期的社交媒体发布中指出：“只需一个小音频片段，便可以无与伦比的精确度克隆声音，调整语调、情感、口音、节奏、停顿和语调。”公司还分享了他们研究论文的链接，详细介绍了OpenVoice的开发历程，并提供了用户试用的接入途径：MyShell网络应用（需用户账号）和HuggingFace（无需账号的公共访问）。

在一封电子邮件中，MIT和MyShell的首席研究员秦增毅强调了项目的目标：“MyShell旨在惠及研究界。OpenVoice仅仅是个开始，未来我们将提供资助、数据集和计算资源，以支持开源研究。我们的核心使命是‘让AI服务于所有人’。”

关于OpenVoice的动机，秦增毅解释道：“语言、视觉和声音是未来通用人工智能（AGI）三大关键领域。目前已有多种开源模型用于语言和视觉，但缺乏一个强大且即时的声音克隆模型来进行定制，因此我们开展了这个项目。”

使用OpenVoice

在HuggingFace进行非正式测试时，我迅速生成了一个令人信服的（虽然有些机械化的）声音克隆，使用的是随机的语音。与其他声音克隆应用不同，OpenVoice让我能够自由发言，而无须遵循特定的脚本。在几秒钟内，我得到了一个能准确读取我的文本提示的声音克隆。

此外，我还可以针对不同的情感预设调整克隆的“风格”，如快乐、悲伤或愤怒，有效地改变声音的语气。以下是我使用OpenVoice设置为“友好”语气的声音克隆示例。

OpenVoice的创建过程

OpenVoice的创建者——秦增毅、清华大学的赵文亮和余旭敏，以及MyShell的孙欣——在研究论文中概述了他们的方法。OpenVoice由两个关键的AI模型组成：文本到语音（TTS）模型和音调转换器。

TTS模型管理风格参数和语言，基于来自两位讲英语（美式和英式口音）、一位讲中文和一位讲日语的发言者的30,000句句子进行训练，并为每种句子标注特定情感。这一模型学习语调、节奏和停顿的细微差别。

音调转换器则在超过20,000位发言者的300,000多个音频样本上进行训练。这些样本将口语转化为音素——区分单词的独特音，表示为向量嵌入。

通过使用“基准发言者”与用户输入的音调信息结合，这些模型能够复制用户的声音并调整其情感表达。OpenVoice研究中的图解展示了这些模型如何集成。

尽管这一概念简单，但该方法高效且所需计算资源显著少于Meta的Voicebox等竞争对手。秦增毅表示：“我们旨在开发最灵活的即时声音克隆模型。这种灵活性意味着对风格、情感、口音的控制，并能适应任何语言。之前，由于其复杂性，这种全面功能是无法实现的。通过去耦管道过程，我们在保持简单性的同时取得了有效成果。”

OpenVoice的背后

MyShell成立于2023年，通过INCE Capital领投的560万美元种子轮融资，获得了Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC和OP Crypto等机构的支持，已有超过40万用户，SaaS News报道称。研究中，我注意到他们的Discord服务器上有超过61,000名用户。

MyShell自我描述为“一个去中心化的综合性平台，用于发现、创建和质押AI原生应用”。除了OpenVoice，他们的网络应用还提供多种文本基础的AI角色和机器人，每个角色都有不同的个性，类似于Character.AI，并包括动画GIF制作工具和基于热门特许经营的用户自创RPG。

在盈利模式方面，MyShell对网络应用用户收取月度订阅费，并对希望在应用内推广产品的第三方机器人创作者收取费用。同时，他们还为AI训练数据收费。

转型银行业：提升数字化客户旅程，超越简单交易

最高法院年终报告探讨人工智能在司法系统中的未来