在完善机器学习(ML)语音克隆和合成技术后,成立于2022年的AI初创公司ElevenLabs,正扩展其产品线,推出一种新的文本转声音模型。该创新AI模型将使创作者能够通过语言描述其构想,轻松生成音效,增强AI驱动的数字体验内容。
虽然该模型尚未公开发布,ElevenLabs已发布了一个预告片,展示了其能力,使用由OpenAI的Sora创建的视频,并结合了该公司生成的AI音效。同时,他们还推出了一个注册页面,供用户加入早期访问等待名单。
用AI音效拓展音频可能性
ElevenLabs致力于提高音频和视频内容在不同语言和地区的可访问性。该公司提供多种工具,包括文本转语音和语音转语音模型,能够从29种语言的各种内容来源(文本、音频或视频)中生成自然的AI语音,并传达丰富的情感。
这些工具在企业和个人内容创作者中越来越受欢迎。同时,由于Runway、Pika以及OpenAI的Sora等工具的出现,完全由AI生成的内容也在上升。虽然这些产品可以根据简单的文本提示创建逼真的视频,但通常缺乏相应的音频。ElevenLabs的新模型旨在填补这一空白,使用户能够根据文本描述为内容生成音效。
借助此产品,AI创作者可以实现项目的音效增强,从鸟鸣到繁忙的街道噪音,应有尽有。
ElevenLabs的增长负责人Luke Harries表示:“我们主要公开展示了我们的文本转语音模型,但实际上我们还有更多产品在开发中。OpenAI推出Sora后,我们决定提前展示我们即将发布的产品线。”
这一新模型生成的声音同样适用于从文本生成的口语内容或任何需要背景音频的视频项目,例如Instagram短视频、广告或游戏预告片。音效的质量和多样性尚待评估。
注册以获取早期访问权限
虽然ElevenLabs尚未公布公开发布的具体日期,但他们目前正在接受早期访问的注册。感兴趣的用户可以访问其注册页面,填写姓名和电子邮件,并描述他们的音效使用计划。鼓励早期参与者写出AI音效的示例提示,以帮助优化模型的响应。
注册后,用户将加入等待名单,并在模型可用时获得访问权限,尽管具体时间尚不明确。
尽管ElevenLabs在这一技术上占据了先发优势,但在AI语音领域,MURF.AI、Play.ht和WellSaid Labs等其他公司也有可能开发类似的产品。
根据Market US的数据,2022年全球AI音频工具市场的估值为12亿美元,预计到2032年将接近50亿美元,年均增长率(CAGR)超过15.40%。