ElevenLabs发布开源工具，轻松为视频添加音效

Home AI News CN ElevenLabs发布开源工具，轻松为视频添加音效

在推出其音效文本转声音AI几周后，AI语音初创公司ElevenLabs推出了一款开源工具，旨在展示其强大功能。用户只需15秒，就能通过分析导入的剪辑，为视频生成音效样本并提供多种声音选项。

开发者可以在GitHub上获取该应用的代码，而专门的网站则允许公众体验Sound Effects API。用户上传视频后，视频转音效应用会在客户端每秒提取四帧画面。这些画面与提示信息一起发送至OpenAI的GPT-4，生成定制的文本转音效提示。随后，ElevenLabs的Sound Effects API利用该提示生成音效。最后，视频和音频在客户端合成一个最长可达22秒的可下载文件。

ElevenLabs的设计负责人Ammaar Reshi表示：“我们把这视为用户能够通过我们的SFX API实现的概念验证。AI视频创作者常常寻求完美的音效，我们的目标是通过分析视频帧并建议最佳输出，简化这个过程。”他强调，特别是在沉浸式视频游戏中，音效根据玩家的互动而变化的潜力巨大。

该API使开发者可以使用简短描述创建定制的AI音效。ElevenLabs采用基于使用量的收费标准：每次生成100个字符并自动确定持续时间，或者每秒25个字符用于设定持续时间。

在一次快速测试中，视频转音效应用操作简便。在导入一段无声的越野车辆剪辑后，ElevenLabs的AI生成了四种音效选项，全部模拟车辆在碎石路上行驶的声音。尽管为剪辑添加音效乐趣无穷，但真正的潜力在于将这一功能整合到更广泛的系统中，以产生更大的影响。

随着AI视频生成领域的发展，ElevenLabs致力于通过创新音频解决方案，满足开发者、电影制作人和内容创作者的需求，始终保持行业领先地位。

AWS推出托管开源MLflow以提升Amazon SageMaker机器学习体验

探索Maxim：全面评估平台，助您应对AI质量挑战

Most people like

Researcher.Life

507.9K

研究人员的人工智能工具与出版服务：提升研究效率与成果可见性在当今快速发展的学术界，研究人员面临着竞争激烈的挑战。为了提高研究效率并确保研究成果得到广泛传播，许多先进的人工智能工具和专业出版服务应运而生。通过智能化的数据分析、文献管理和出版支持，这些服务不仅能帮助研究人员节省时间，还能提升其研究成果的影响力。探索这些新兴工具的潜力，将为研究人员在不断演变的学术环境中提供更强的竞争优势。

研究用的AI工具写作助手