在推出其音效文本转声音AI几周后,AI语音初创公司ElevenLabs推出了一款开源工具,旨在展示其强大功能。用户只需15秒,就能通过分析导入的剪辑,为视频生成音效样本并提供多种声音选项。
开发者可以在GitHub上获取该应用的代码,而专门的网站则允许公众体验Sound Effects API。用户上传视频后,视频转音效应用会在客户端每秒提取四帧画面。这些画面与提示信息一起发送至OpenAI的GPT-4,生成定制的文本转音效提示。随后,ElevenLabs的Sound Effects API利用该提示生成音效。最后,视频和音频在客户端合成一个最长可达22秒的可下载文件。
ElevenLabs的设计负责人Ammaar Reshi表示:“我们把这视为用户能够通过我们的SFX API实现的概念验证。AI视频创作者常常寻求完美的音效,我们的目标是通过分析视频帧并建议最佳输出,简化这个过程。”他强调,特别是在沉浸式视频游戏中,音效根据玩家的互动而变化的潜力巨大。
该API使开发者可以使用简短描述创建定制的AI音效。ElevenLabs采用基于使用量的收费标准:每次生成100个字符并自动确定持续时间,或者每秒25个字符用于设定持续时间。
在一次快速测试中,视频转音效应用操作简便。在导入一段无声的越野车辆剪辑后,ElevenLabs的AI生成了四种音效选项,全部模拟车辆在碎石路上行驶的声音。尽管为剪辑添加音效乐趣无穷,但真正的潜力在于将这一功能整合到更广泛的系统中,以产生更大的影响。
随着AI视频生成领域的发展,ElevenLabs致力于通过创新音频解决方案,满足开发者、电影制作人和内容创作者的需求,始终保持行业领先地位。