Camb发布Mars5:一款开放式语音克隆AI模型,媲美ElevenLabs,支持140种语言,增强真实感

今天,位于迪拜的初创公司Camb AI,专注于基于人工智能的内容本地化技术,推出了一款先进的声音克隆AI模型——Mars5。尽管许多模型(如ElevenLabs)可以制作数字声音复制品,但Camb AI凭借Mars5的无与伦比的真实感脱颖而出。根据公司提供的初步样本,Mars5不仅能够模拟原声,还能捕捉到复杂的韵律元素,如节奏、情感和语调。

与ElevenLabs的36种语言相比,Camb AI支持近三倍的语言,提供超过140种语言,包括冰岛语和斯瓦希里语等不常见语言。然而,特定于英语的开放源代码版本今天已在GitHub上发布,而更多的语言支持可以通过Camb的付费平台访问。

“Mars5用几秒钟的输入捕捉到的韵律和真实感是前所未有的。这是一项语音技术的突破性进展,”联合创始人兼首席技术官阿克沙特·普拉卡什(Akshat Prakash)表示。

声音克隆与文本转语音的集成

传统上,声音克隆和文本转语音是两个独立的过程:前者通过音频样本创建合成声音,而后者则利用这些声音朗读文本。然而,Mars5将这两个功能整合到一个平台上。用户只需上传一个时长在几秒到一分钟之间的音频文件,并提供待合成的文本。该模型分析音频,以复制说话者的声音、风格、情感和意义,将文本转化为自然流畅的语音。

Camb AI声称,Mars5能够巧妙地捕捉各种情感语调,处理复杂的语音场景,如沮丧、命令、冷静或热情。这种多功能性使得Mars5在体育解说、电影和动漫等传统上具有挑战性的内容中表现出色。

为了实现这种韵律效果,Mars5将一个约750M参数的自回归模型与一个创新的约450M参数的非自回归多项式扩散模型相结合,使用6kbps的编码令牌。

“自回归模型预测编码特征的最基本代码值,而非自回归模型则对这些预测进行精细化,填补剩余的代码条目。这种方法采用去噪声扩散过程,以提高准确性,”普拉卡什补充道。

性能与其他模型的比较

尽管具体的基准统计数据尚未确定,但早期测试表明,Mars5的表现超过了包括Metavoice和ElevenLabs在内的主流语音合成模型,往往能更接近原声地生成结果。

“尽管ElevenLabs在超过50万小时的大数据集上进行了训练,我们的模型设计却能更有效地捕捉语音的细微差别。随着我们不断扩展数据集并进一步训练Mars5——并在GitHub上发布更新——我们期待能够实现更大的进步,”普拉卡什表示。

Camb AI还在准备发布另一个开放源代码模型Boli,旨在理解上下文、确保语法准确性并捕捉口语细微之处,改善翻译质量。

“与谷歌翻译等传统翻译工具相比,Boli在提供细腻且具有文化相关性的翻译方面表现卓越,特别是针对资源较少至中等的语言。反馈表明,Boli显著超越了主流工具,包括前沿生成模型如ChatGPT,”普拉卡什指出。

目前,Mars5和Boli都支持Camb独立平台Camb Studio上的140种语言,公司将这些功能作为API提供给企业、中小型企业和开发者。Camb AI与美国职业足球大联盟、澳大利亚网球协会、枫叶体育娱乐,以及领先的电影和音乐制片公司及各类政府机构合作。

值得关注的是,Camb AI创下了历史,成功地在超过两小时内为一场职业足球比赛进行四种语言的实时配音,并将澳大利亚公开赛的赛后新闻发布会翻译成多种语言,同时将心理惊悚片《三》从阿拉伯语翻译成普通话。

Most people like

Find AI tools in YBX