OpenAI、米国およびチームユーザー向けに人間らしいChatGPTの音声モードを導入!

OpenAIは、待望の「ChatGPTアドバンストボイスモード」を導入し、自然な会話が可能な音声インターフェースを提供します。この機能は、初期のテストグループおよび待機リストからの利用者を超えて、すべての有料サブスクライバーに利用可能になります。アメリカでの段階的なアクセスは数日内に開始されます。EduおよびEnterpriseプランの顧客は、来週の利用開始を期待できます。

音声インターフェースに加え、OpenAIでは「カスタムインストラクション」と「メモリ」機能も提供され、個々のユーザーとのインタラクションがよりパーソナライズされます。この更新により、ユーザーは新たに加わった5つのボイススタイル(Arbor、Maple、Sol、Spruce、Vale)を楽しむことができ、既存のボイス(Breeze、Juniper、Cove、Ember)と合わせて多様性が広がります。

この強化により、ChatGPTユーザーは入力するのではなく、音声でチャットボットと対話できるようになります。アプリ内でアドバンストボイスアシスタントモードに入るとポップアップ通知が表示されます。OpenAIは、アルファ版以来、人気のある外国語のアクセント精度と会話の流暢さを高めるために多くの時間を費やしてきました。また、新しいアドバンストボイスモードにはアニメーションされた青い球体が特徴として追加されています。

これらのアップデートはGPT-4oモデル専用で、より新しいo1プレビューモデルでは使用できません。カスタムインストラクションとメモリ機能により、音声チャット中のユーザーインタラクションがさらに個別化されます。

AI音声アシスタント、特にAppleのSiriやAmazonのAlexaが普及する中で、開発者たちはより人間らしい会話体験を提供することを目指しています。ChatGPTは、音読機能を通じて音声機能を導入していますが、アドバンストボイスモードはより魅力的で本物らしいインタラクションを提供することを目的としています。

競合他社の中には、Hume AIが感情を音声パターンで検出する共感的ボイスインターフェースを発表し、KyutaiがオープンソースのAI音声アシスタント「Moshi」を公開しました。また、Googleは自社のGeminiチャットボットに音声を追加し、Metaは人気の俳優の声を模倣したAIプラットフォームの開発を進めています。OpenAIは、競合他社よりもAI音声技術をよりアクセスしやすくすることを目指しています。

期待が高まる一方で、AI音声の統合には議論も生じています。特に、ChatGPTの「Sky」というボイスが女優スカーレット・ヨハンソンの声に似ているとの指摘があり、CEOのSam Altmanが「彼女」という言葉を使ったことも話題になりました。OpenAIは、著名人の声を再現する意図はないと強調し、ユーザーにはOpenAIから提供される9つの異なる声のみがアクセス可能であることを明言しています。

この導入は、当初の6月下旬から「7月下旬または8月初旬」に延期され、部分的には安全性テストへの取り組みが影響しています。OpenAIは、29の地域で45の言語に堪能な外部の赤チームと広範な評価を行いました。現在のアクセス拡大の決定は、OpenAIが実施した安全対策に対して自信を持っていることを示しており、アメリカおよびイギリス政府との協力や新しいモデルのリリース前のプレビュー提供に基づいた慎重なアプローチに沿っています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles