OpenAI最近在X(前身為Twitter)上宣布,其倍受期待的ChatGPT進階語音功能將於“下週”開始逐步推出,初步面向選定的ChatGPT Plus訂閱者。此alpha測試旨在收集用戶反饋,並根據這些見解優化功能。
進階語音功能將用戶互動轉變為自然對話,而無需依賴文本提示,類似於與他人交流。此功能在公司春季更新活動中於5月首次推出,與典型的數位助手如Siri和Google Assistant不同。此類系統通常提供固定回答,而ChatGPT的進階語音則輕鬆地以各種語言提供幾乎即時的人類回應。GPT-4o模型的平均音頻回應時間僅為320毫秒,與人類對話速度相當。在演示視頻中,觀眾可以看到模型如何與多位用戶互動,隨即展開英語和葡萄牙語的對話,並展現人類情感,包括笑聲。
參與者的選拔方式雖然尚不清楚,但他們需為每月20美元的ChatGPT Plus訂閱者。雖然最初計劃在6月推出,但由於需要增強系統的內容管理能力和IT基礎設施以應對預期的用戶需求,alpha測試被延後。根據6月的公告,進階語音功能的全面推出預計至少要等到秋季,其時間取決於確保功能符合高安全性和可靠性標準。
將自然對話能力整合至ChatGPT是一項重要的進步。這項技術減少了上下文窗口的需求,降低了硬體要求,並擴大了AI的潛在應用,尤其對於行動或靈活性有挑戰的用戶而言。此外,通過簡化互動,這個功能為那些熟悉“嘿Siri”等語音命令,但對提示設計感到困惑的用戶鋪平了更廣泛接受AI技術的道路。