语音克隆:AI音频生成的未来
语音克隆是生成式AI领域中一个快速发展的领域,它涉及利用先进技术复制一个人的声学特征,如音调、音色、节奏、习惯用语和独特发音。像ElevenLabs这样的初创公司已为此获得了大量资金,而Meta公司(Facebook、Instagram、WhatsApp及Oculus VR的母公司)也推出了名为Audiobox的免费语音克隆工具,尽管存在一些限制。
介绍Audiobox
由Facebook AI研究实验室(FAIR)研发的Audiobox被称为“音频生成的基础研究模型”,其基于早期的Voicebox工作。根据Audiobox官方网站的描述:“它可以通过语音输入和自然语言文本提示的组合生成声音和音效,使用户可以轻松创建适用于各种场景的定制音频。”用户只需输入一句话,克隆的声音便会复述,或者可以录制自己的声音让Audiobox进行克隆。
音频生成模型系列
Meta开发了一系列模型,包括用于语音模仿的模型以及用于生成犬吠声或警报声等环境音效的模型,所有这些模型都是基于共享的自监督学习(SSL)模型——Audiobox SSL。
自监督学习是一种深度学习技术,AI算法能够为未标记数据生成自己的标签,与依赖预标记数据的监督学习不同。研究人员在论文中解释了他们的SSL方法,强调“标记数据并不总是可用或高质量,因此,我们的策略是使用无监督音频进行训练,如转录文本或字幕。”
领先的生成式AI模型(包括Audiobox)通常依赖人类生成的数据进行训练。FAIR的研究人员利用了“16万小时的语音(主要是英语)、2万小时的音乐和6000小时的声音样本”。语音数据包括有声书、播客、对话以及来自150多个国家和200多种主要语言的各类录音。
尽管研究论文未具体说明数据来源,但这引发了一个重要问题:内容创作者和版权持有者对AI公司在未获得适当许可的情况下培训模型使用可能的受版权保护素材表示担忧。Meta在一封电子邮件中表示,“Audiobox是基于公开可用和授权的数据集训练的”,但并未披露具体来源。
亲自体验Audiobox
Meta提供了互动演示,展示Audiobox的功能,用户可以录制自己的声音,生成克隆声音,并输入文本让其发声。根据我的体验,生成的音频与我的声音惊人相似,家人们在没有知道出处的情况下也确认了这一点。
用户还可以根据文本描述生成全新的声音,如“女性深沉声音”或“来自美国的高音男性讲者”,并生成各种声音效果,如犬吠声。我测试了“犬吠声”这一功能,得到了两个令人信服的结果。
然而,需要注意的是,一个免责声明指出:“这只是一个研究演示,不能用于任何商业用途。”此外,由于州法律的限制,该工具仅对伊利诺伊州和德克萨斯州以外的用户开放。
Audiobox与AI音频生成的未来
与Meta最近推出的Imagine by Meta AI图像生成工具不同,Audiobox并不是开源的,这与Meta以前在Llama 2大语言模型(LLMs)中展示的开放承诺有所背离。一位Meta发言人表示,他们计划邀请研究人员和学术机构申请用于安全性和责任研究的资助。
目前,Audiobox不能用于商业目的,且在美国人口最多的两个州无法使用。然而,随着AI技术的迅速发展,我们可以预见商业版本的出现,无论是来自Meta还是其他开发者。