ElevenLabs扩展AI功能:推出创新的AI生成音效

在成功推出文本转语音和语音转语音合成工具后,人工智能语音初创公司ElevenLabs正瞄准新的前沿。由前Google和Palantir员工创办的这家两岁初创公司今天推出了最新创新:音效(Sound Effects),这是一款文本转声音的人工智能工具。

目前,音效工具已在ElevenLabs官网上线。它利用该公司的独特基础模型,使创作者能够仅通过输入所需声音的描述,生成多样化的音频样本。最初在二月展示时,通过AI音效增强的Sora生成片段为其打下了基础,音效工具为寻求沉浸式音频体验的内容创作者带来了重要进展。

创作者可以期待什么?

传统上,在社交视频、游戏、电影和电视节目等内容中添加环境音需要创作者手动录音或从各种在线库购买音频文件。这种方式往往受到限制,可能导致可用声音匮乏和预算限制。

ElevenLabs的音效工具简化了这一过程。用户可以轻松用日常对话的语言描述他们想要的声音。底层模型会处理这个提示,并生成六个独特的音频样本供用户选择。用户可以试听每个选项,并方便地直接从ElevenLabs平台下载或保存喜欢的样本。

在早期测试中,一家媒体发现音效工具在30-40秒内产生了清晰的输出,尽管生成的选项只有四个。这些样本包括多种环境音,从雷暴和门铃等常见声音到更复杂的效果,比如猴子聊天和火车到达的声音。

ElevenLabs首席执行官Mati Staniszewski指出,该工具还可以生成更长的音频样本,包括器乐音乐和角色声音。“音效可以生成最长22秒的器乐轨道,例如用提示‘吉他循环’或‘爵士萨克斯风独奏’,”他解释道。用户还可以使用提示如“一个女人在沙滩上唱歌跳舞”或“一个魔鬼说,‘离开我,微不足道的人类’”来创建角色声音。此外,用户可以通过提示将声音串联在一起,例如,“一个快乐的老妇人说‘我为你感到骄傲’,然后笑。”

关于底层模型的具体细节尚未披露,但ElevenLabs强调该模型是通过内部研究开发,并利用Shutterstock丰富的授权音频库进行了调优。Shutterstock首席企业官Aimee Egan对此次合作表示兴奋,称“我们的丰富库与这种创新音频技术的协同作用,创造了真正的市场首创。”

旨在全球赋能创作者

自成立以来,ElevenLabs始终致力于构建先进的人工智能音频解决方案。公司起初推出了多语言的文本转语音模型,接着推出了语音克隆和AI配音等产品,可以在保留原说话者声音的同时,将音频和视频翻译成29种语言。

凭借音效工具,ElevenLabs正在扩展其产品线,为创作者——包括影片制作人、游戏开发者、营销人员和社交媒体影响者——提供更强大的工具,以提升内容质量。

尽管Staniszewski未透露目前在进行Alpha测试的具体公司,但他提到ElevenLabs为41%的财富500强公司服务,其中包括《华盛顿邮报》、Storytel和TheSoul Publishing等知名客户。

展望未来,ElevenLabs计划推出音乐生成模型和语音配音工作室,这两项功能目前正处于Alpha测试中,不过时间表尚不确定。

人工智能语音、声音和音乐生成市场正在蓬勃发展,竞争对手包括Google、Meta、Suno、Pika、MURF.AI、Play.ht和WellSaid Labs。根据Market US的报道,全球这类工具的市场在2022年达到12亿美元,并预计到2032年将接近50亿美元,年复合增长率(CAGR)超过15.40%。

Most people like

Find AI tools in YBX