ウェブページ上部の「この記事を聞く」機能は、視覚障害者や読み書きに困難を抱える人々、さらには忙しい方々にとって非常に貴重なツールです。今週、音声AIのスタートアップElevenLabsは、同社の高度なテキスト読み上げ技術を使用してウェブページコンテンツを自動でナレーションする革新的なオーディオプレーヤー「Audio Native」を発表しました。
さらに、ElevenLabsは「ElevenLabs Reader」を開始しました。これは、ウェブページや文書に対して11の異なる声でナレーションを提供するサービスです。彼らの音声モデルは29言語をサポートしており、長編映画の吹き替えやプロンプトを歌詞に変換する能力も備えています。Audio Nativeは「クリエイター」プランで月額11ドルから利用可能で、組み込みメトリックとリスナーダッシュボードを備え、オーディエンスのエンゲージメントをモニターできます。
ElevenLabsは、ブログやbensbites.comからのSEOガイド、2023年11月のニュー・ヨーカーの記事「アメリカの国家安全保障上の脅威は海外だけではない」など、同社の技術を活用するウェブサイトをXページ(旧Twitter)で紹介しました。The AtlanticやThe New York Timesなどの既存メディアもElevenLabsの技術を採用しています。ElevenLabsのサム・スカラー氏は、「カスタマイズが可能で設定が簡単、読者のエンゲージメントを向上させながら、世界中のオーディエンスにコンテンツをよりアクセス可能にします」と述べています。
ウェブサイトへのオーディオ埋め込み
Audio Nativeを利用することで、ユーザーは簡単に自分のウェブサイトに音声を埋め込んだり、ElevenLabsのAPIを使って既存のプロジェクトから音声を統合したりできます。その際、ユーザーは簡単なHTMLのスニペットを提供し、ドメインを「許可リスト」に追加し、利用可能な声から選択し、プレーヤーの背景色とテキスト色をカスタマイズする必要があります。最後に、提供されたコードを自サイトにコピー&ペーストします。
オプショナルな発音辞典を使用することで、ブランド固有のフレーズも設定可能です。デフォルトでは、モデルはページ上の全テキストコンテンツに対して音声オーバーを生成しますが、CSSセレクタを用いてカスタマイズも可能です。このツールは、React、Squarespace、WordPress、Ghost、Webflow、Framerなどのプラットフォームをサポートしています。初期のレビューでは、このツールが「すごい」や「驚くべき」と称賛され、アクセシビリティを向上させる大きな可能性があるとされています。
未来の革新
ElevenLabsは、ユーザーからの提案に応じて機能拡張に取り組んでいるようです。ポッドキャスト用のRSSフィード機能を追加するアイデアが提案された際、ElevenLabsの成長責任者であるルーク・ハリースは「素晴らしいアイデアですね、チームと共有します」と応じました。
2022年に元Googleエンジニアのピオトル・ダブコフスキとパランティアの戦略家マティ・スタニゼフスキによって設立されたElevenLabsは、わずか数年で評価額11億ドルに達しました。最近の資金調達ラウンドでは8000万ドルを確保しています。
Speechify、Deepgram、Voicemodなどの競合がひしめく中、ElevenLabsは急成長を遂げるグローバルなAI音声クローン市場で特有の立ち位置を築いています。この市場は2032年までに162億ドルに達し、2023年から28%の年成長率(CAGR)が見込まれています。ElevenLabsは、ハーパーコリンズ出版社と提携してAI生成のオーディオブックを作成し、ユーザーがクローン音声を収益化できるマーケットプレイスも立ち上げました。しかし、その音楽生成機能や、モデル訓練での著作権素材の使用に関する懸念が高まっていることにも注意が必要です。