今日、Pixel 9Siriーズの発表イベントで、Googleは初めて英語を話すGemini Advancedサブスクライバー向けにGemini Liveサービスを発表しました。この革新的なサービスは、より自然でスムーズな会話体験を提供することを目的としています。
Gemini Liveは、GoogleのAI音声技術における重要な進展を示しています。強化された音声エンジンを使用し、整った、感情豊かでリアルなマルチターンの会話を実現します。このサービスは、OpenAIが最近導入したChatGPTのAdvanced Voiceモードと直接競合し、AI音声チャット技術のさらなる発展を期待させます。
Googleによれば、Gemini Liveは新しいモバイル会話体験を通じて、ユーザーがGeminiとシームレスに対話できるように設定されています。会話中にユーザーはGeminiを気軽に中断してフォローアップの質問を行ったり、リアルタイムで話し方を変更したりし、より自然なコミュニケーションを楽しむことができます。さらに、新たに追加された10種類の自然な音声から選ぶことができ、会話におけるパーソナライズが更に豊かになります。
イベントでは、Gemini Liveの模擬面接での活用例も紹介され、ユーザーは採用担当者(またはAI)と対話し、自分の話し方に対するフィードバックと最適化のアドバイスを受けることができました。この機能は、ユーザーの面接パフォーマンスを向上させるだけでなく、Gemini Liveの幅広い適用可能性を示しています。
ただし、Gemini Liveは現在、マルチモーダル入力機能には対応していない点に注意が必要です。Googleは、5月のI/OカンファレンスでGemini Liveがモバイルカメラを通じて環境を捉え、応答する能力を示していましたが、この機能は「今年の後半」に遅れると予想されています。Googleによると、マルチモーダル入力の統合により、Gemini Liveの対話能力がさらに豊かになり、より包括的なスマート体験を提供することが期待されています。
Gemini Liveサービスの導入により、GoogleはAI音声チャット分野でのリーダーシップを確固たるものにしました。今後の技術の進展は、ユーザーにさらなる驚きと便利さを提供することを約束しています。