幾週前,AI 語音初創公司 ElevenLabs 發佈了其聲音效果文本轉聲音 AI,現推出一款開源工具,旨在展示其功能。這款應用程式僅需 15 秒,創作者便可通過分析上傳的影片來生成聲音效果樣本,並提供多種聲音選擇。
開發者可以在 GitHub 上訪問應用程式的程式碼,而專門網站則讓公眾體驗聲音效果 API。當影片上傳後,視頻到聲音效果應用會在客戶端每秒提取四幀畫面,這些畫面連同提示一同發送至 OpenAI 的 GPT-4,以創建定制文本到聲音效果的提示。該提示隨後用於通過 ElevenLabs 的聲音效果 API 生成聲音效果。最終,視頻和音頻會在客戶端合併成一個可下載的文件,時長可達 22 秒。
“我們將這視為用戶可以利用我們的 SFX API 達成的概念證明,”ElevenLabs 的設計主管 Ammaar Reshi 表示。他指出,AI 影片創作者經常尋找完美的聲音效果,我們旨在通過分析視頻幀並建議最佳輸出來簡化該過程。他強調,特別是在沉浸式視頻遊戲中,聲音效果可以根據玩家互動而不斷演變,具有動態體驗的潛力。
這款 API 使用簡短描述讓開發者能創建量身定制的 AI 聲音效果。ElevenLabs 根據使用量收費,每次生成 100 個字符並自動計算時長,或以 25 個字符每秒的方式計算固定時長。
在一次快速測試中,視頻到聲音效果應用簡便易用。在導入一段無聲的全地形車輛畫面後,ElevenLabs 的 AI 生成了四種聲音選擇,均類似於一輛汽車行駛於碎石路。雖然為片段添加聲音效果可能很有趣,但真正的潛力在於將這一能力整合到更大的系統中,以達到更大的影響。
隨著 AI 影片生成領域的演變,ElevenLabs 力求在創新音頻解決方案方面保持領先,滿足開發者、電影製作人和內容創作者的需求。