OpenAIは、テキスト、画像、動画生成の領域を超え、音声技術において重要な進展を発表しました。それは、音声クローン技術を用いた「ボイスエンジン」というAIモデルです。このモデルは2022年から開発が進められており、つい最近発表されたChatGPTの音声機能や読み上げ機能を支えています。
音声クローン技術の仕組み
ボイスエンジンは、人間の話者が15秒間の音声クリップを電話やコンピュータのマイクで録音することで、リアルな音声クローンを生成します。その後、AIは元の話者に非常に似た自然な音声を作り出し、ユーザーは任意のテキストを音声に変換できます。
音声市場への大きな影響
この技術は、ポッドキャスターや声優、オーディオブックのナレーター、ゲーマー、カスタマーサービス担当者など、公の場で頻繁に話す人々に大きな可能性を提供します。また、ElevenLabs、Captions、Meta、WellSaid Labs、MyShellといった競合企業に対する挑戦ともなります。
OpenAIは、ボイスエンジンが非言語者を支援する能力を強調しており、独特で非ロボット的な声を提供することで、音声障害や学習課題を持つ方々の治療や教育に役立つとしています。
初期の使用例
OpenAIは、ボイスエンジンが現在信頼された少数のパートナーに提供されていると報告しています。これには以下のような企業が含まれます:
- Age of Learning: 学生向けにパーソナライズされた音声コンテンツを生成。
- HeyGen: 映像翻訳のために、リアルな多言語音声を持つカスタムアバターを生成。
- Dimagi: コミュニティヘルスワーカー向けにインタラクティブな多言語フィードバックを提供。
- Livox: AACアプリにボイスエンジンを統合し、音声障害や聴覚障害を持つ人のための独自の声を提供。
- Norman Prince Neurosciences Institute at Lifespan: 音声障害を持つ患者を支援する技術を利用し、脳腫瘍患者の以前の音声サンプルに基づいて声を再現。
OpenAIは、技術の能力を示す音声サンプルを公開し、患者の元々の声とボイスエンジンによるクローン声の比較を行っています。
限定的なアクセスと慎重な展開
現時点では、ボイスエンジンは一般公開されていません。OpenAIは、自社の信頼パートナーと共に小規模なプレビューを行い、得られた情報や結果を共有しています。同社は「合成音声の悪用の可能性を考慮し、慎重かつ情報に基づいたアプローチを取っている」と述べています。また、合成音声の責任ある使用を促進するために、著作権政策を厳守し、音声提供者からの同意を必要とする厳格なガイドラインを設けています。さらに、OpenAIは、責任ある技術使用を推進するために、透かしや積極的なモニタリングといった安全対策を実施しています。