ElevenLabs推出開源工具，輕鬆將音效添加至影片中

Home AI新聞 ElevenLabs推出開源工具，輕鬆將音效添加至影片中

幾週前，AI 語音初創公司 ElevenLabs 發佈了其聲音效果文本轉聲音 AI，現推出一款開源工具，旨在展示其功能。這款應用程式僅需 15 秒，創作者便可通過分析上傳的影片來生成聲音效果樣本，並提供多種聲音選擇。

開發者可以在 GitHub 上訪問應用程式的程式碼，而專門網站則讓公眾體驗聲音效果 API。當影片上傳後，視頻到聲音效果應用會在客戶端每秒提取四幀畫面，這些畫面連同提示一同發送至 OpenAI 的 GPT-4，以創建定制文本到聲音效果的提示。該提示隨後用於通過 ElevenLabs 的聲音效果 API 生成聲音效果。最終，視頻和音頻會在客戶端合併成一個可下載的文件，時長可達 22 秒。

“我們將這視為用戶可以利用我們的 SFX API 達成的概念證明，”ElevenLabs 的設計主管 Ammaar Reshi 表示。他指出，AI 影片創作者經常尋找完美的聲音效果，我們旨在通過分析視頻幀並建議最佳輸出來簡化該過程。他強調，特別是在沉浸式視頻遊戲中，聲音效果可以根據玩家互動而不斷演變，具有動態體驗的潛力。

這款 API 使用簡短描述讓開發者能創建量身定制的 AI 聲音效果。ElevenLabs 根據使用量收費，每次生成 100 個字符並自動計算時長，或以 25 個字符每秒的方式計算固定時長。

在一次快速測試中，視頻到聲音效果應用簡便易用。在導入一段無聲的全地形車輛畫面後，ElevenLabs 的 AI 生成了四種聲音選擇，均類似於一輛汽車行駛於碎石路。雖然為片段添加聲音效果可能很有趣，但真正的潛力在於將這一能力整合到更大的系統中，以達到更大的影響。

隨著 AI 影片生成領域的演變，ElevenLabs 力求在創新音頻解決方案方面保持領先，滿足開發者、電影製作人和內容創作者的需求。

AWS推出受管理的開源MLflow，提升Amazon SageMaker上的機器學習效果

Penguin Solutions 強化 OriginAI 以提升 AI 工廠部署效率與性能優化