数日後、リアルタイムで人間のような応答が可能なアップグレード版ChatGPTアバターが発表されたばかりですが、OpenAIは話題の「Sky」ボイス機能を一時停止することを決定しました。この決定は、「Sky」ボイスが映画『her』でスカーレット・ヨハンソンのAIキャラクターに非常に似ているという懸念を受けたものです。OpenAIはこの声が直接の模倣ではないと主張し、異なるプロの女優が自身の自然な声で演じていることを明らかにしました。
現在、「Sky」ボイスが再導入される時期や可能性は不明ですが、ChatGPTユーザーは引き続き「Breeze」「Cove」「Ember」「Juniper」の4つの代替ボイスから選ぶことができます。この発表を受けて、ジャーナリストのヤシャール・アリはヨハンソンの代理人からの声明を共有し、ヨハンソンが新しいボイスの発表前にOpenAIのCEOSam Altmanに声を提供するよう求められたが、これを拒否したことが確認されました。ヨハンソンはデモを聞いて驚きとフラストレーションを感じたと述べ、その声が自分の声に非常に似ていると語り、多くの友人やメディアが混乱したといいます。
OpenAIは2023年9月にChatGPTのボイス機能を導入しましたが、当初のモデルは音声をテキストに変換するシステム、応答を生成するGPT-3.5/GPT-4、そしてテキストを音声に変換するシステムの3つのシステムに依存していたため、応答に顕著な遅延がありました。このため、AIはトーンや複数の話者、背景音に対して適切に反応するのが難しい状況でした。
これらの限界に対処するため、OpenAIは最近、テキスト、音声、視覚を統合したGPT-4oというリアルタイムマルチモーダルAIを発表しました。これにより、約320ミリ秒で応答を提供できるようになり、ChatGPTはSiriやAlexaなどの既存の音声アシスタントに対抗する可能性を持つことになりました。
ローンチ後、ユーザーたちは「Sky」ボイスが『her』のAIキャラクター「サマンサ」に非常に似ていることにすぐに気付きました。これにより、OpenAIがヨハンソンの声の特性をAIで再現したのではないかという憶測が広まりました。
これらの懸念を受けて、OpenAIは「Sky」ボイスを一時停頓し、これはヨハンソンの模倣ではなく、5ヶ月間の厳選プロセスを経て選ばれたプロの女優の声であることを明確にしました。「私たちは、AIの声は意図的に有名人の独特な声を模倣すべきではないと信じています」とOpenAIはブログで述べ、400件の応募者から、多様性や時代を超えた暖かさを反映した基準に基づいて声を選んだことを強調しました。
「Sky」ボイスが一時停止される中、他の4つのボイスオプションは引き続き利用可能です。GPT-4oの新しいボイスモードが今後展開される中、ユーザーはAIとの対話を通じてこれらの代替ボイスを楽しむことができます。「Sky」ボイスの将来については、OpenAIがヨハンソンのキャラクターとの類似性に関する懸念にどのように対処する予定なのかは依然として不明です。同社は関与する声優とのコラボレーションを継続し、多様なユーザーの好みや興味に応えるためにさらなる声オプションの拡充を計画しているとのことです。