スタートアップの新たな音声クローン技術、OpenVoice
ElevenLabsなどのスタートアップは、ユーザーの声を再現する音声クローン用の独自アルゴリズムとAIソフトウェアの開発に数百万ドルを投資しています。そんな中、マサチューセッツ工科大学(MIT)、清華大学(北京)、AIスタートアップのMyShellの研究者たちが、瞬時の結果を提供し、他のプラットフォームにはない詳細なコントロールを可能にするオープンソースの音声クローンソリューション「OpenVoice」を発表しました。
MyShellは、「わずかな音声クリップからトーンや感情、アクセント、リズム、ポーズ、イントネーションを調整し、比類のない精度で声をクローンします」と、Xでの最近の投稿で述べています。同社は、OpenVoiceの開発に関する研究論文へのリンクと、MyShellウェブアプリ(ユーザーアカウント必須)及びHuggingFace(アカウントなしで公にアクセス可)の使用方法を紹介しました。
MITとMyShellの主任研究者、チン・ゼンイは、プロジェクトの目的について次のように強調しています。「MyShellは研究コミュニティに貢献することを目指しています。OpenVoiceはその始まりに過ぎません。将来的には、オープンソースの研究を支援するために、助成金やデータセット、計算リソースを提供します。我々のコアミッションは『誰のためのAI』です。」
OpenVoiceの開発の動機について、チンは次のように説明しています。「言語、視覚、音声は未来の人工一般知能(AGI)にとっての三つの重要なモダリティです。言語や視覚のためのさまざまなオープンソースモデルは存在しますが、カスタマイズが可能な強力で即時の音声クローンモデルが欠けていたため、このプロジェクトを着手しました。」
OpenVoiceの使用方法
HuggingFaceを使った非公式なテストでは、私は無作為なスピーチを用いて、自分の声の説得力のある(ややロボット的な)レプリカをすぐに生成しました。他の音声クローンアプリケーションとは異なり、OpenVoiceでは特定のスクリプトに従わずに自由に話すことができます。数秒で、テキストプロンプトを正確に読み上げる声のクローンを得ることができました。
さらに、「スタイル」設定を調整することで、楽しい、悲しい、怒っているといった異なる感情プリセットを選び、トーンを効果的に変えることができました。以下は、OpenVoiceを使って「フレンドリー」なトーンに設定した私の声のクローンのサンプルです。
OpenVoiceの創造
OpenVoiceを創り上げたのはチン、清華大学の趙文亮、余詩敏、そしてMyShellの徐鑫です。彼らは研究論文でその方法を説明しています。OpenVoiceは、テキストから音声への変換(TTS)モデルとトーン変換器の二つの重要なAIモデルで構成されています。
TTSモデルは、30,000の文からなるデータセットで、アメリカ英語やイギリス英語話者、中国人、日本人の声を対象にしてスタイルパラメータや言語を管理します。このモデルは、イントネーション、リズム、ポーズといったニュアンスを学習しました。
トーン変換器は、20,000人以上の話者からの300,000以上の音声サンプルで訓練されました。話し言葉の音声は音素(言葉を区別する独特の音)に変換され、ベクトル埋め込みとして表現されます。
TTSモデルに「基礎話者」を使用し、ユーザーの入力から得たトーン情報と組み合わせることで、これらのモデルはユーザーの声を再現し、感情表現を調整できます。OpenVoiceの研究論文に示された図により、これらのモデルがどのように統合されるかが説明されています。
概念的にはシンプルですが、この方法は効率的であり、MetaのVoiceboxなどの競合に比べて計算資源が著しく少なくて済みます。チンは、「私たちは、最も柔軟な即時音声クローンモデルの開発を目指していました。この柔軟性は、スタイル、感情、アクセントの制御および任意の言語への適応を可能にします。以前は、複雑さのためにこのような包括的な機能は実現できませんでしたが、切り離されたパイプラインプロセスを通じて、簡潔かつ効果的な成果を達成しました」と述べています。
OpenVoiceの背後にあるMyShell
MyShellは2023年に設立され、INCE Capitalのリードによる560万ドルのシードラウンドを受け、その後、Folius Ventures、Hashkey Capital、SevenX Ventures、TSVC、OP Cryptoからの出資も受けています。The SaaS Newsの報告によれば、すでに40万人以上のユーザーを獲得しています。私が研究している間、Discordサーバーには61,000人以上のユーザーがいるのを確認しました。
MyShellは、「AIネイティブアプリケーションを発見、創造、ステーキングするための分散型の包括的プラットフォーム」と自らを定義しています。OpenVoiceに加えて、ウェブアプリにはCharacter.AIのような独自の個性を持つさまざまなテキストベースのAIキャラクターやボット、アニメーションGIFメーカー、人気フランチャイズに基づくユーザー生成RPGなどのツールがあります。
マネタイズに関しては、MyShellはウェブアプリのユーザーに月額料金を請求し、アプリ内で製品を宣伝したいサードパーティのボットクリエイターにも料金を課しています。また、AIトレーニングデータに対しても料金が発生します。