Resemble AI推出快速声音克隆技术:声音科技的革命性突破
Resemble AI全新推出的快速声音克隆技术(Rapid Voice Cloning)是一项重大创新,专为企业用户在人工智能语音领域而设计,显著加快了声音克隆的生成过程。
现在使用快速声音克隆,用户只需上传短音频样本,便可在约一分钟内复制声音。此项创新使得声音克隆技术更为普及,用户可以轻松为他们的应用程序创造自定义声音。Resemble AI预计这一技术将在内容创作、个性化服务和无障碍访问等领域产生重要影响。
快速声音克隆如何工作
用户只需通过Resemble的网页平台上传清晰的音频样本,或录制一段最长一分钟的语音即可创建该声音的数字复制品。以往,用户需要录制大约25个句子或上传至少三分钟的音频内容,整个过程要耗时约一小时。现在,使用快速声音克隆,用户仅需10秒到一分钟的音频样本。平台的先进机器学习算法能够即时捕捉所有声音参数,包括口音,并在一分钟内提供克隆的声音。
Resemble AI的创新算法有效再现了各种口音的细微差别,甚至可以从简短的样本中进行准确的声音生成。在最近的一篇博客文章中,公司展示了该技术的能力,并与微软的VALL-E和XTTS-v2声音克隆模型进行了比较,结果令人印象深刻。
技术测试
在我们的测试中,系统要求用户至少录制三句较长的句子,且不支持较短的样本。尽管处理速度较快,但系统在识别印度口音时出现问题,默认为美国英语样本,影响了输出声音的口音。尽管如此,公司保证快速声音克隆最终将支持大多数英语口音。
Resemble AI仍将提供传统的声音克隆功能,也称为专业声音克隆。尽管这种方法的输入要求更高,处理时间更长,但它支持所有英语口音,并同时具备文本转语音和语音转语音的功能,而快速声音克隆则专注于文本转语音的生成。
各行业的应用
凭借其快速的处理速度和最低的样本要求,Resemble AI预计快速声音克隆将被内容创作者广泛采用。这项技术可以为播客、视频、有声书和在线学习材料生成配音、配音及对话等内容。企业可以利用这一创新来提升无障碍访问和个性化体验。
例如,一款健身应用可以利用快速声音克隆创建一个AI教练,以熟悉的声音与用户沟通,提供量身定制的鼓励和指导。同样,虚拟助手可以根据用户的偏好调整声音,以实现更为个性化的互动。
市场竞争
值得注意的是,Resemble AI并不是唯一在加速声音克隆技术的公司。ElevenLabs也提供了一种名为即时声音克隆的相似解决方案,需要至少一分钟的清晰音频,从而实现几乎瞬间的声音生成。像Resemble一样,ElevenLabs也提供支持多语言和口音的专业版本。
目前,Resemble AI允许用户创建一个免费的声音克隆。若需额外克隆,用户必须订阅每月29美元起的付费计划,最高可达每月499美元。同时还有按需付费的个人计划和可定制的企业定价可供选择。
通过这些技术进步,Resemble AI正为创意和商业机会铺平道路,推动声音技术的创新发展。