OpenAIは、ChatGPTの新機能「Advanced Voice」が「来週」から、最初に選ばれたChatGPT Plusのユーザーに向けて展開されると、X(旧Twitter)で発表しました。このアルファテストは、ユーザーからのフィードバックを集め、機能を改善することを目的としています。
Advanced Voiceは、テキストプロンプトに頼ることなく、自然な会話を可能にし、まるで他の人と話しているような体験を提供します。この機能は、GPT-4oの発表時に初めて紹介され、通常のデジタルアシスタント(SiriやGoogle Assistantなど)とは異なり、スクリプトされた応答ではなく、ほぼ瞬時に人間らしい応答を多国語で返すことが特徴です。GPT-4oモデルは、平均音声応答時間がわずか320ミリ秒で、人間の会話速度に匹敵します。デモ動画では、モデルが複数のユーザーとやり取りし、英語とポルトガル語で即興のディスカッションを楽しむ様子や、笑いなどの人間らしい感情を示す様子が確認できます。
アルファテストの参加者選定方法についての詳細はまだ不明ですが、参加者は月額20ドルのChatGPT Plusの購読者である必要があります。当初は6月にリリース予定でしたが、システムのコンテンツモデレーション機能を向上させ、予想されるユーザー需要に対応するためのITインフラ強化に伴い延期されました。6月に発表された通り、Advanced Voiceの全面展開は少なくとも今秋まで期待できず、安全性と信頼性の基準を満たすことが重要です。
ChatGPTに自然な会話機能を統合することは、AI技術の大きな進歩です。この進化により、コンテキストウィンドウの必要性が減少し、ハードウェアの要件が軽減されることで、特に移動や器用さに課題を抱えるユーザーにも幅広いAIの活用が可能になります。また、インタラクションが簡略化されることで、「Hey Siri」といった音声コマンドには慣れているものの、プロンプトエンジニアリングに対して抵抗を感じるユーザーにとって、AI技術の受け入れが進む道を開きます。