Google推出Gemini Live：開創AI語音聊天新時代

Home AI新聞 Google推出Gemini Live：開創AI語音聊天新時代

在今日的 Pixel 9 系列發布會上，Google 推出了其 Gemini Live 服務，該服務最初僅向英語的 Gemini Advanced 訂閱用戶開放。這項創新服務旨在提供更自然流暢的對話體驗。

Gemini Live 代表了 Google 在 AI 語音技術方面的一次重大進步。透過增強的語音引擎，該服務旨在實現連貫、富有情感且真實的多輪對話，直接與 OpenAI 最近推出的 ChatGPT 進階語音模式展開競爭，推動 AI 語音聊天技術的進一步發展。

根據 Google 的說法，Gemini Live 提供全新的移動對話體驗，讓用戶能夠與 Gemini 進行無縫的對話。在聊天過程中，用戶可以輕鬆打斷 Gemini 提問、即時調整其語氣風格，享受更自然的交流過程。此外，Gemini Live 還提供了十種全新的自然語音選擇，增強了對話的個性化。

活動中還展示了 Gemini Live 在模擬面試中的應用，讓用戶可以與招聘經理（或 AI）互動，獲得對其演講技巧的反饋以及優化建議。這項功能不僅提升了用戶的面試表現，還展示了 Gemini Live 廣泛的應用潛力。

需要注意的是，儘管 Gemini Live 在語音聊天方面取得了顯著進展，但目前尚不支持多模態輸入功能。Google 早前在五月的 I/O 大會上展示了 Gemini Live 擁有透過手機鏡頭捕捉並響應環境的能力，但該功能目前預計將延遲到「今年晚些時候」推出。Google 表示，整合多模態輸入將進一步豐富 Gemini Live 的互動能力，提供更加全面的智能體驗。

隨著 Gemini Live 服務的推出，Google 在 AI 語音聊天領域的領導地位得以鞏固。展望未來，不斷的技術進步將為用戶帶來更多驚喜與便利。

Google推出全新Pixel Studio：一款基於Imagen 3模型的本地AI圖像生成應用程序

Qwen2-Audio 7B：一款無文本的對話助手，由阿里巴巴的開放源代碼Tongyi Qwen提供技術支持。