数週間前、音声スタートアップElevenLabsは、音声効果を生成するためのテキストから音声へのAIを発表しました。そして今、彼らはその能力を示すためのオープンソースツールを公開しました。このアプリケーションは、クリエイターがインポートしたクリップを解析し、複数の音のオプションを提供することで、わずか15秒で動画用のサウンドエフェクトサンプルを生成できる特徴があります。
開発者はGitHubでアプリのコードにアクセスでき、専用のウェブサイトでは一般の人々がSound Effects APIを試すことができます。動画がアップロードされると、Video to Sound Effectsアプリはクライアント側で1秒間隔で4つのフレームを抽出します。これらのフレームとプロンプトはOpenAIのGPT-4に送信され、カスタマイズされたテキストから音声効果を生成するためのプロンプトが作成されます。次に、このプロンプトを使用してElevenLabsのSound Effects APIを介して音効果が生成されます。最終的に、動画と音声はクライアント側で1つのダウンロード可能なファイルに統合され、最大22秒間利用可能です。
「私たちはこれを、ユーザーが私たちのSFX APIで達成できることの概念実証と見ています」とElevenLabsのデザインリード、アムマー・レシ氏は述べています。「AI動画クリエイターは、しばしば完璧なサウンドエフェクトを求めており、私たちは動画フレームを分析して最適な出力を提案することで、このプロセスをスムーズにすることを目指しています。」彼は、特にプレイヤーのインタラクションに基づいて音効果が進化する可能性のある没入型ビデオゲームにおけるダイナミックな経験の重要性を強調します。
このAPIを利用することで、開発者は短い説明を使用してカスタマイズされたAI音効果を作成できます。ElevenLabsは、生成ごとに使用量に基づいた料金を徴収し、100文字ごとの自動的な期間または設定された期間に対して25文字/秒で請求します。
簡単なテストの結果、動画から音声効果へのアプリは使いやすいものでした。全地形環境で車両の無音クリップをインポートしたところ、ElevenLabsのAIはすべて、砂利道を走る車のような4つの音オプションを生成しました。クリップに音効果を追加するのは楽しい作業ですが、本当に真価を発揮するのは、この機能をより大規模なシステムに統合することによって、より大きな影響をもたらすことにあります。
AI動画生成の分野が進化する中、ElevenLabsは開発者、映像制作者、コンテンツクリエイターのニーズに応じた音声ソリューションを革新し続けることで、先端を維持することを目指しています。