言語は人間の交流に欠かせないものであり、その背後にある感情も同様です。喜び、悲しみ、怒り、フラストレーションなどの感情を表現することで、私たちのメッセージが強化され、つながりが深まります。
生成AIはさまざまな分野で進展を遂げていますが、人間の感情の微妙なニュアンスにはまだ課題が残ります。そんな中、Typecastという革新的なスタートアップは「クロススピーカー感情転送技術」を開発し、これを変えようとしています。この技術により、他の人の声から捉えた感情を自分の録音に組み込むことができ、独自の声のスタイルを保持しつつコンテンツ制作を効率化します。この機能はTypecastの「マイボイスメーカー」を通じて利用可能です。
「AIの俳優は、まだ人間の感情の幅を完全に再現するには至っていません。それが最も大きな制約です」と、NeosapienceとTypecastのCEO兼共同創設者、金 太洙(キム テス)氏は述べています。Typecastのクロススピーカー感情転送を使えば、「誰でも少量の声サンプルから、本物の感情深さを持つAI俳優を利用できます。」
感情を解読する
人間の感情は、喜び、悲しみ、怒り、恐れ、驚き、嫌悪の7つのカテゴリーに分類されますが、生成された音声で感情の全てを伝えるには限界があります。話すことは単なるテキストから音声への直接的な変換ではありません。「人間は同じ文を無数の方法で伝えることができます」とキム氏は語ります。同じ文、さらには同じ言葉の中でも異なる感情を表現することが可能です。
例えば、「どうしてこんなことをするの?」という問いかけは、失望のトーンで伝えることもあれば、怒りを表現することもできます。さらに、「父が亡くなったので悲しいのに、彼女は微笑んでいる」といった複雑な感情は、一つのカテゴリーに収めることが難しいのです。キム氏を含む研究者たちは、さまざまな感情を伝える能力が豊かな会話を生むと強調しています。
感情的なテキスト音声変換の限界
テキスト音声変換技術は急速に進化していますが、感情を含む音声変換を実現するのはまだ困難です。十分なラベル付きデータが求められますが、それを収集することは難しく、様々な感情のニュアンスを録音するプロセスは時間がかかります。「感情を持たせた長文を録音するのは非常に難しい」と金氏は言います。従来の感情音声合成では、すべてのトレーニングデータには感情ラベルが必要であり、データが不十分だと誤ラベリングや感情強度の取得が困難になります。
クロススピーカー感情転送は、異なるスピーカーに未確認の感情を割り当てる際に新たな課題を生み出します。現行の技術では、ニュートラルなスピーカーが感情音声を生成する際に不自然な結果を生むことが多いからです。
深層ニューラルネットワークと教師なし学習の革新
この課題に取り組むため、研究者たちは生成的深層ニューラルネットワークに感情ラベルを統合するという革新的なアプローチを採用しました。しかし、これだけでは複雑な感情や話し方を表現するには不十分でした。そこで、教師なし学習アルゴリズムが開発され、膨大なデータベースから話し方や感情を特定することが可能になりました。このトレーニングは感情ラベルを用いずに行われ、音声データから貴重な表現を引き出すことができました。これらの表現が直接人間に解読できるわけではありませんが、テキスト音声変換アルゴリズムに感情を表現する手助けをします。
さらに、自然言語の感情記述を使用可能な表現に変換するために感覚に関するニューラルネットワークの訓練も行われました。「この技術により、ユーザーは数百の異なる話し方や感情を録音する必要がなくなります。システムは広範な感情を持つ声のデータベースから学習します」と金氏は語ります。
音声特徴の容易な適応
研究者たちは、潜在表現を活用し「転送可能で制御可能な感情音声合成」を実現しました。ドメイン敵対的トレーニングやサイクル一貫性損失の技術により、スピーカーの特性と話し方を切り離すことが可能になりました。録音された人間の声の広範な分析により、システムは感情パターン、音色、抑揚を学びます。この方法は、数少ないラベル付きサンプルのみでニュートラルなスピーカーに感情を転送し、直感的なスカラー値を用いて感情の強度を調整することができます。
この革新により、ユーザーは短い音声スニペットを録音し、独自の声のアイデンティティを変えることなく、さまざまな感情を表現できます。たった5分間の録音で、通常の話し方でも喜びや悲しみ、怒りといった感情を表現することが可能です。
Typecastの技術は、Samsung SecuritiesやLG Electronicsなどの著名な企業に既に導入されており、同社は2017年の設立以来、2680万ドルの資金を確保しています。現在、Typecastは音声合成技術の表情への応用を模索中です。
生成AIにおける制御性の重要性
急速に発展するメディア環境において、キム氏が指摘するように、テキストベースのブログの人気は短編動画へと移行しており、個人や企業はかつてないほど多くの音声および映像コンテンツの制作を求められています。「質の高い表現力のある声は、企業メッセージを伝えるために不可欠です」と金氏は強調します。制作の効率化は重要であり、従来の俳優による手作業はしばしば遅すぎます。「生成AIにおける制御性は、コンテンツ制作において極めて重要です。これらの技術は、個人や企業が創造的な可能性を引き出し、生産性を向上させるのを助けます。」