ChatGPTの新しい音声モードを活用したクリエイティブな方法の探求

OpenAIがこのたび、選ばれたサブスクライバー向けにChatGPTの「高度な音声モード」を発表しました。5月に発表されたこの機能は、伝統的なテキストベースの対話を超え、自然な会話を実現することを目的としています。ユーザーに対して生き生きとした質感の音声を通じた交流を提供し、多様な地域アクセントや言語にも対応しています。OpenAIによると、高度な音声モードは「より自然でリアルタイムな会話を可能にし、いつでも中断することができ、感情を感じ取り反応します」。

ただし、音声モードにはいくつかの制限があります。システムは4つのプリセット音声で動作し、個々のユーザーや公人の声を模倣することはできません。これらのプリセットから逸脱する出力は自動的にブロックされます。さらに、高度な音声は著作権のある音声を作成したり音楽を制作したりするためには設計されていません。しかし、ユーザーはAIにビートボックスを頼むなどして、すでにおもしろい実験を行っています。

アルファテスターのイーサン・スティンは、X(旧Twitter)で高度な音声のさまざまな応答を紹介するスレッドを共有しました。その中には「バースデーラップ」やビートボックスのデモも含まれており、AIの音声がビートの合間にデジタルな呼吸音を生み出しています。完全な曲を作成することはできませんが、AIは就寝前の物語に音響効果を追加し、ストーリーテリングの体験を豊かにしています。例えば、ロボットサイボーグについての物語の際には、適切なクラッシュやスラーム音を生成し、没入感を高めます。

さらに、高度な音声はリアルなキャラクターを自発的に生成し、その生き生きとした特性を向上させることができます。ユーザーは、AIにさまざまなトーンや言語での会話を求めることができ、対話に深みを加えます。

AIの音声能力は人間の言語だけに留まりません。たとえば、指示を与えると、高度な音声は猫の鳴き声を正確に模倣することができます。ユーザーはAIに自分のペットについて質問し、リアルタイムで特有のアドバイスを受け取ることができます。

さらに、高度な音声はデバイスのカメラを活用し、翻訳をサポートすることも可能です。あるユーザーは、日本語のゲームボーイアドバンスのポケモンゲームをプレイしている際、スマートフォンを画面に向け、AIがオンスクリーンの対話を読み上げることができました。現在、ビデオや画面共有機能はアルファリリースには含まれていませんが、OpenAIはこれらの機能を近く導入する計画です。今後数週間でより多くの「プラス」サブスクライバーにアルファリリースを拡大し、今秋には完全なローンチを予定しています。

Most people like

Find AI tools in YBX