OpenAIが音声クローンAIモデルを発表、現在は限られたパートナーのみ利用可能

Home AIニュース OpenAIが音声クローンAIモデルを発表、現在は限られたパートナーのみ利用可能

OpenAIは、テキスト、画像、動画生成の領域を超え、音声技術において重要な進展を発表しました。それは、音声クローン技術を用いた「ボイスエンジン」というAIモデルです。このモデルは2022年から開発が進められており、つい最近発表されたChatGPTの音声機能や読み上げ機能を支えています。

音声クローン技術の仕組み

ボイスエンジンは、人間の話者が15秒間の音声クリップを電話やコンピュータのマイクで録音することで、リアルな音声クローンを生成します。その後、AIは元の話者に非常に似た自然な音声を作り出し、ユーザーは任意のテキストを音声に変換できます。

音声市場への大きな影響

この技術は、ポッドキャスターや声優、オーディオブックのナレーター、ゲーマー、カスタマーサービス担当者など、公の場で頻繁に話す人々に大きな可能性を提供します。また、ElevenLabs、Captions、Meta、WellSaid Labs、MyShellといった競合企業に対する挑戦ともなります。

OpenAIは、ボイスエンジンが非言語者を支援する能力を強調しており、独特で非ロボット的な声を提供することで、音声障害や学習課題を持つ方々の治療や教育に役立つとしています。

初期の使用例

OpenAIは、ボイスエンジンが現在信頼された少数のパートナーに提供されていると報告しています。これには以下のような企業が含まれます：

- Age of Learning: 学生向けにパーソナライズされた音声コンテンツを生成。

- HeyGen: 映像翻訳のために、リアルな多言語音声を持つカスタムアバターを生成。

- Dimagi: コミュニティヘルスワーカー向けにインタラクティブな多言語フィードバックを提供。

- Livox: AACアプリにボイスエンジンを統合し、音声障害や聴覚障害を持つ人のための独自の声を提供。

- Norman Prince Neurosciences Institute at Lifespan: 音声障害を持つ患者を支援する技術を利用し、脳腫瘍患者の以前の音声サンプルに基づいて声を再現。

OpenAIは、技術の能力を示す音声サンプルを公開し、患者の元々の声とボイスエンジンによるクローン声の比較を行っています。

限定的なアクセスと慎重な展開

現時点では、ボイスエンジンは一般公開されていません。OpenAIは、自社の信頼パートナーと共に小規模なプレビューを行い、得られた情報や結果を共有しています。同社は「合成音声の悪用の可能性を考慮し、慎重かつ情報に基づいたアプローチを取っている」と述べています。また、合成音声の責任ある使用を促進するために、著作権政策を厳守し、音声提供者からの同意を必要とする厳格なガイドラインを設けています。さらに、OpenAIは、責任ある技術使用を推進するために、透かしや積極的なモニタリングといった安全対策を実施しています。

生成AIはサイバーセキュリティのリソースギャップを埋められるか？

エロン・マスク、Grok-1.5を発表：GPT-4性能に迫る新たな進化

Most people like

macky

18.7K

簡単な質問を通じて深い洞察を提供するAI駆動型コンサルティングプラットフォームを発見してください。あなたのニーズに合わせた専門的な分析を手軽に得る体験をお楽しみください。

AIコンサルティング AI Consulting Assistant

Formulas HQ

77K

ExcelおよびGoogle Sheetsのための精密なAI駆動の数式の力を解き放ちましょう。高度なアルゴリズムを活用してデータ分析を向上させ、計算を効率化し、スプレッドシート作業の生産性を高めましょう。

エクセル関数 AI Charting

Drumless

20K

AI革新でドラム演奏のアートを革新する。

ドラム演奏 Other

AiReelGenerator

17.8K

AIが顔のない動画を生成することでコンテンツ制作をどのように革新しているかを発見してください。この変化するデジタル環境では、これらの革新的なツールがクリエイターにプライバシーと匿名性を保ちながらオーディエンスを引きつける新しい方法を提供します。ソーシャルメディアやマーケティングなど、オンラインプレゼンスを高めるためのAI駆動の顔のない動画の可能性を探求しましょう。

AIによる動画生成 AI Content Generator

Find AI tools in YBX