WellSaid Labsは、人工知能(AI)音声技術の先駆者として、ユーザーがAIの音声パフォーマンスをより自然で微妙に制御できる革新的なツール「HINTS(Highly Intuitive Naturally Tailored Speech)」を発表しました。HINTSを使用することで、コンテンツクリエイターは、映画監督のように文脈に基づく注釈(テンポや音量の調整など)を使ってAI音声をカスタマイズできます。
WellSaid Labsの共同創業者でCTOのマイケル・ペトロチュクは、「多くの顧客がAIの音声出力に対するより良いコントロールを求めています。私たちは、直感的かつ自然なシステムを構築し、ユーザーの文脈に基づいて本物のパフォーマンスを予測できるモデルを開発しました。これにより、クリエイターは自らの芸術的ビジョンを実現できるようになります」と語りました。
HINTSは、従来の堅苦しいマークアップ言語や単純なプロンプトに依存する方法からの脱却を示しています。新技術では、特定のパッセージを0.7倍遅くしたり、音量を5dB増加させたりするなど、詳細でインターポラブルな調整が可能になり、AI音声はシームレスに応じます。文脈を理解する能力により、ユーザーは長いスクリプト全体に注釈を重ねることができます。
「このシステムは、実際の人間のデータ(同意のもとで取得)を使用しているため、注釈付きの音声表現も、注釈なしのものと同様にリアルです」とペトロチュクは説明します。「驚くべきことに、モデルは単一のデータセットだけでなく、複数の話者からのパフォーマンスを一般化して抑揚を強化できることが分かりました。この発見は私たちの期待を超えており、今後の研究の可能性を示しています。」
HINTSは、非常にカスタマイズ可能でディレクターに特化したAI音声ツールの需要に応え、オーディオブック、トレーニングモジュール、マーケティングビデオなどの音声コンテンツに変革をもたらす可能性があります。初期評価では、精度や自然さの向上が見られています。
研究は、責任ある倫理的なAIの実践も重視しています。「私たちは当初から倫理的な革新にコミットしています」とペトロチュクは述べています。WellSaidは、声の提供者から明示的な同意を得ていることを保証し、プライバシーを守り、誤用を防ぐためにコンテンツをモデレートしています。
音声AIが消費者向け技術やエンターテインメントにますます統合される中、HINTSはこの技術が単なる音声ツールではなく、共感的なストーリーテリングのメディアとしてどのように機能するかを示しています。人間の才能と比較するとまだ限界はありますが、HINTSのような革新が本当に表現力豊かな合成音声の実現に近づけてくれるのです。