Meta、ボイスクローンとアンビエントサウンドスケープを生成するAIツール「Audiobox」を発表

音声クロー二ング: AI音声生成の未来

音声クロー二ングは、創造的なAIの中でも急速に発展している分野であり、特定の人の声の特徴(音程、音色、リズム、言い回し、独特の発音など)を先進的な技術を用いて再現することを目的としています。スタートアップ企業のElevenLabsはこの分野で大きな資金調達を行い、Meta Platforms(Facebook、Instagram、WhatsApp、Oculus VRの親会社)は、制限付きながらも独自の無料音声クロー二ングツール「Audiobox」を発表しました。

Audioboxのご紹介

Facebook AI Research(FAIR)ラボによって開発されたAudioboxは、「音声生成のための基盤研究モデル」と説明されており、以前のVoiceboxに基づいています。Audioboxのウェブサイトによると、「音声入力と自然言語のテキストプロンプトを組み合わせて声や音響効果を生成できるため、さまざまな用途に合わせたカスタムオーディオの作成が簡単です。」

ユーザーはクローン音声に言わせたい文を入力するか、生成したい音を説明することができます。自分の声を録音してAudioboxにクローンさせることも可能です。

音声生成モデルのファミリー

Metaは、音声模倣用モデルや犬の鳴き声、サイレン音などの環境音効果用のモデルを含む「モデルのファミリー」を開発しました。これらのモデルは、共通の自己教師あり学習(SSL)モデルであるAudiobox SSLに基づいて構築されています。自己教師あり学習は、AIアルゴリズムがラベルのないデータに対して自らラベルを生成する深層学習技術で、事前にラベル付けされたデータに依存する教師あり学習とは異なります。研究者の論文では、このSSLアプローチが説明されており、「ラベル付きデータは必ずしも利用可能または高品質とは限らないため、我々の戦略はトランスクリプトやキャプションのような監視なしでオーディオを使ってトレーニングすることです」と強調されています。

Audioboxを含む最新の生成AIモデルは、トレーニングに人間が生成したデータを多く使用することが一般的です。この場合、FAIRの研究者たちは「主に英語で160,000時間の音声、20,000時間の音楽、6,000時間の音声サンプル」を活用しました。音声データには、オーディオブック、ポッドキャスト、会話、さまざまな音響環境における録音が含まれ、150カ国以上、200以上の主要言語の話者が含まれています。

ただし、研究論文ではこのデータの出所は明記されていないため、著作権のある素材を適切な同意なしに使用している可能性について、コンテンツ制作者や権利保有者から懸念が示されています。Metaは「Audioboxは公に利用可能なライセンス付きデータセットでトレーニングされた」と述べていますが、具体的な出所は開示していません。

自分でAudioboxを試す

MetaはAudioboxの機能を示すインタラクティブなデモを提供しており、ユーザーは自分の声を録音し、クローン音声を生成し、その音声に話させたいテキストを入力することができます。私の経験では、生成された音声は自分の声に驚くほど似ており、出所を知らなかった家族もその一致を確認しました。

ユーザーは、「深い女性の声」や「アメリカの高音の男性話者」のようなテキスト記述に基づく新しい声を作成したり、犬の鳴き声など様々な音を生成したりすることも可能です。私は「犬が鳴いている」という記述で試したところ、説得力のある結果が二つ得られました。

しかし、重要な点として、「これは研究デモであり、商業目的には使用できません。」という免責事項があります。また、音声収集に関する州の法律のため、イリノイ州およびテキサス州のユーザーには制限があります。

AudioboxとAI音声生成の未来

最近発表されたMeta AIの画像生成ツール「Imagine」と異なり、Audioboxはオープンソースではなく、Metaが以前に示したオープン性への取り組みから外れています(Llama 2Siriーズの大規模言語モデルに見られるように)。Metaの広報担当者は、Audioboxを用いた安全で責任ある研究に向けて、研究者や学術機関からの助成金応募を求める計画を示しました。

現段階ではAudioboxは商業利用できず、アメリカで最も人口の多い二つの州の住民は利用できません。しかし、AI技術が急速に進化し続けているため、Metaまたは他の開発者から商業版の登場が期待されます。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles