AI音声スタートアップ、ElevenLabs が新たなる領域に挑戦
AI音声スタートアップ「ElevenLabs」は、テキストから音声、音声から音声への合成ツールを成功裏に発売した後、新たなイノベーションを発表しました。元GoogleおよびPalantirの社員によって設立されたこの2年目のスタートアップは、最新のAIツール「Sound Effects」(サウンドエフェクト)を発表しました。このツールは、テキストから音を生成するAIです。
Sound Effectsの概要
ElevenLabsのウェブサイトで現在利用可能なSound Effectsは、同社の独自の基盤モデルを利用して、クリエイターが求める音を文字で説明するだけで、多様なオーディオサンプルを生成します。
2月にSoraが生成したクリップをAI音響効果で強化したことが初めて発表され、その進化が期待されていたSound Effectsは、コンテンツ制作における没入感のあるオーディオ体験を求めるクリエイターにとって重要な前進です。
Sound Effectsがクリエイターにもたらすもの
従来、ソーシャルビデオ、ゲーム、映画、テレビ番組などに環境音を追加するには、クリエイターが音を手動で録音するか、オンラインの音声ストックから購入する必要がありました。この方法は制約が多く、音の選択肢が限られる上、予算にも影響します。
しかし、ElevenLabsのSound Effectsはこのプロセスをシンプルにします。ユーザーは、思い描いている音を自然な会話で説明するだけで、基盤モデルがそのプロンプトを処理し、6つのユニークなオーディオサンプルを生成します。ユーザーは、それぞれのオプションを試聴し、気に入ったサンプルをElevenLabsのプラットフォームから直接ダウンロードできます。
初期テストでは、あるメディアがSound Effectsの出力が30〜40秒でクリアであったと報告しましたが、生成されたオプションは6つではなく4つでした。このサンプルには、雷雨やインターホンなどの標準的な音から、猿の鳴き声や電車の到着音などの複雑な効果まで多岐にわたる環境音が含まれていました。
ElevenLabsのCEO、マティ・スタニゼフスキは、ツールが長時間のオーディオサンプルも生成できると述べています。「Sound Effectsは、‘ギターのループ’や‘ジャズサックスのソロ’といったプロンプトで22秒までのインストゥルメンタルトラックを生成できる」と説明しました。ユーザーは「砂の中で踊りながら歌う女性」や「‘近寄るな、小さい人間!’と言うオーガ」のようなキャラクターボイスも生成できます。さらに、「誇りに思うわ」と言って笑う喜びに満ちた老人の声のように、サウンドを連続して繋げることも可能です。
未来を見据えたElevenLabsの挑戦
ElevenLabsは、社内研究を通じて独自モデルを開発しており、Shutterstockの豊富なライセンス音声ライブラリーを使用して調整したと強調しています。Shutterstockの企業担当最高責任者、エイミー・イーガンは、「私たちのライブラリーとこの革新的な音声技術のシナジーは、真の市場初の成果を生み出しました」と述べています。
ElevenLabsは、クリエイター、映画製作者、ゲーム開発者、マーケター、ソーシャルメディアのインフルエンサーに向けてより強力なツールを提供し、コンテンツ制作の幅を広げています。現在、具体的な企業名は明かされていませんが、ElevenLabsはFortune 500の41%にサービスを提供しており、『ワシントン・ポスト』や『Storytel』、および『TheSoul Publishing』などの著名なクライアントがいます。
今後、音楽生成モデルやボイスオーバー・スタジオの提供も計画しており、これらも現在アルファテストが行われていますが、具体的なタイムラインは未定です。
AIによる音声、音、音楽生成の市場は急成長中で、GoogleやMeta、Suno、Pika、MURF.AI、Play.ht、WellSaid Labsなどの競合企業がひしめいています。Market USの報告によれば、これらのツールのグローバル市場は2022年に12億ドルに達し、2032年には50億ドル近くに成長する見込みで、年平均成長率(CAGR)は15.40%以上とされています。