機械学習(ML)による音声クローンと合成技術を磨き上げたElevenLabsは、元GoogleおよびPalantirの社員によって設立された2年の若いAIスタートアップで、新たなテキストから音へと変換するモデルを発表しました。この革新的なAI技術は、クリエイターが自分のビジョンを言葉で描写するだけで音響効果を生成できるようにし、AI駆動のデジタル体験の進化する環境でコンテンツの価値を高めます。
現時点ではモデルは一般には公開されていませんが、ElevenLabsはOpenAIのSoraが制作した動画を用いてその機能を実演するティーザーを公開しました。さらに、早期アクセスの待ちリストに登録できるページも開設しました。
AI音響効果で広がる音の可能性
2022年に設立されたElevenLabsは、言語や地域を超えた音声・動画コンテンツのアクセシビリティ向上に尽力しています。同社は、さまざまなソース(テキスト、音声、動画)からAI生成音声を29言語で提供するテキスト読み上げや音声間変換モデルなど、多種多様なツールを提供しています。これにより、自然な声と感情表現を保ちながら音声を生成しています。
これらのツールは、企業や個々のコンテンツクリエイターの間で急速に支持を得ています。一方で、RunwayやPika、OpenAIのSoraなどのツールによって完全なAI生成コンテンツが増加している中、これらのプロダクトはしばしば伴う音声を欠いています。ElevenLabsの新しいモデルは、このギャップを埋め、ユーザーがテキストの説明に基づいてコンテンツのために音響効果を生成できるよう支援します。
この新技術により、AIクリエイターはプロジェクトをスムーズに背景音(鳥のさえずりや賑やかな街の音など)で強化できます。
ElevenLabsの成長責任者であるルーク・ハリス氏は、「当社は主にテキストから音声へのモデルを公開していますが、さらに多くの開発を進めています。OpenAIが音声なしで魅力的な動画を生成するSoraを発表した際、私たちも新製品ラインのプレビューを提供することにしました」と述べ、ElevenLabsのAI音響効果を加えたSora生成動画を紹介しました。
この新しいモデルから生成される音は、テキストからのスピークコンテンツやInstagramのクリップ、コマーシャル、ビデオゲームのトレーラーなど、背景音が必要な任意の動画プロジェクトに応用できます。その音響効果の質と多様性については、今後の展望が待たれます。
早期アクセスにサインアップ
ElevenLabsは公開リリースの日程は発表していませんが、早期アクセスの登録を受け付けています。興味のある方は、同社のサインアップページを訪れ、自分の名前とメールアドレスを提供し、音響効果の利用目的を説明する必要があります。早期の参加者には、AI音響効果の最適化の手助けとなるサンプルプロンプトを記入するよう奨励されています。
登録後は待機リストに加えられ、モデルが利用可能になった際にアクセスできるようになりますが、具体的なタイムラインはまだ不明です。
ElevenLabsはこの技術において先行者利益を持つかもしれませんが、MURF.AI、Play.ht、WellSaid Labsなど、他の企業も同様の製品を開発する可能性があります。Market USによると、2022年のグローバルAIオーディオツール市場は12億ドルと評価され、2032年までに50億ドル近くに達する見込みで、年平均成長率(CAGR)は15.40%以上になると予測されています。