カンブAI、マース5音声クローン技術を発表
本日、ドバイを拠点とするスタートアップ、カンブAIは、音声クローンのための先進的なAIモデル「マース5」を発表しました。多くのモデルがデジタル音声の複製を作成する中、カンブAIはマース5の卓越したリアリズムで差別化を図っています。初期サンプルによると、マース5は元の声を模倣するだけでなく、リズム、感情、イントネーションといった複雑なプロソディ要素も捉えています。
カンブAIは、エレブンラボが対応している36言語に対し、140以上の言語をサポートしており、アイスランド語やスワヒリ語のような珍しい言語にも対応しています。また、英語のみのオープンソース版は今日からGitHubにて公開されており、より広範な言語サポートはカンブの有料スタジオで利用できます。
カンブAIの共同創設者でCTOのアクシャット・プラカッシュ氏は、「マース5が数秒の入力で捉えるプロソディとリアリズムのレベルは前例がありません。これは音声技術の画期的な瞬間です」と述べています。
音声クローンとテキスト音声合成の統合
従来、音声クローンとテキスト音声合成は別々のプロセスでしたが、マース5は両方の機能を一つのプラットフォームで統合しています。ユーザーは数秒から1分間の音声ファイルをアップロードし、合成したいテキストを提供するだけで済みます。このモデルは音声を分析し、話者の声、スタイル、感情、意味を再現し、テキストを自然な音声に変換します。
カンブAIによれば、マース5はフラストレーション、命令、冷静さ、情熱など多様な感情トーンを見事にキャッチし、スポーツ解説、映画、アニメなどの難易度の高いコンテンツにも最適です。
この高度なプロソディを実現するため、マース5は、Mistralスタイルの約7億5000万パラメータを持つ自己回帰モデルと、約4億5000万パラメータを持つ非自己回帰多項分布モデルを組み合わせ、6kbpsのエンコードクトークンを使用しています。プラカッシュ氏は、「ARモデルはエンコード機能の基本的なコードブック値を予測し、NARモデルはこれらの予測を洗練させ、残りのコードブックエントリを‘インペインティング’します。このアプローチは、精度を高めるためにデノイジング拡散プロセスを活用しています」と説明します。
他モデルとの性能比較
具体的なベンチマークの統計は未発表ですが、初期テストではマース5がMetaボイスやエレブンラボなどの人気音声合成モデルを上回っており、多くの場合、元の声により近い結果を出しています。プラカッシュ氏は、「エレブンラボは50万時間以上の大規模なデータセットで訓練していますが、私たちのモデル設計は音声のニュアンスをより効果的に捉えます。データセットを拡充しマース5をさらに訓練することで、GitHubでのアップデートも予定しており、さらなる改善を期待しています」と語ります。
カンブAIは、文脈を理解し、文法的な正確さを保ちながら日常的なニュアンスを捉えるために設計された別のオープンソースモデル「ボリ」も発表準備中です。「ボリは、特にリソースが限られた言語において、Google翻訳などの従来の翻訳ツールを超え、ニュアンスや文化的な関連性を兼ね備えた翻訳を提供します。フィードバックによれば、ボリはChatGPTのような最先端の生成モデルを含む主流ツールを大きく上回る成果を示しています」とプラカッシュ氏は述べています。
現在、マース5とボリはカンブの専用プラットフォームであるカンブスタジオにて140言語をサポートしており、企業や中小企業、開発者向けにAPIとして提供されています。カンブAIは、メジャーリーグサッカー、テニスオーストラリア、メープルリーフスポーツ&エンターテインメント、さらには著名な映画や音楽スタジオ、さまざまな政府機関と提携しています。
特筆すべきは、カンブAIがメジャーリーグサッカーの試合を2時間以上にわたり4言語で同時通訳した歴史的な瞬間や、オーストラリアオープンの試合後記者会見を複数言語に翻訳したこと、心理スリラー映画「3」をアラビア語から北京語に翻訳したことです。