OpenAI 推出 GPT-4o 語音模式,專為 ChatGPT Plus 用戶設計,提升自然即時對話體驗。

最近,OpenAI公布了一項重大更新:GPT-4o 語音模式的早期訪問(Alpha)版本現已向部分 ChatGPT Plus 訂閱用戶開放,並計劃在今年秋季進行更大範圍的推廣。此舉標誌著自然語言處理與語音互動技術整合的重要進展。

GPT-4o 是 OpenAI 最新的統一模型,能夠通過相同的神經網絡處理文本、視覺和音頻輸入,實現無縫連接。這一能力不僅提升了模型的整體處理性能,還為用戶提供了更加自然和即時的對話體驗。

OpenAI 首席技術官 Mira Murati 解釋道,GPT-4o 是公司首次全面嘗試整合文本、視覺和音頻模態。儘管該模型仍處於功能探索和限制評估的初期階段,團隊對其潛力持樂觀態度,並正在積極進行優化。

原定於六月底進行測試的 GPT-4o 語音模式試用,由於進一步完善模型而推遲。OpenAI 表示,他們正在加強模型檢測和拒絕不當內容的能力,以確保用戶享有安全且積極的體驗。得益於這些努力,GPT-4o 語音模式提前上線,標誌著它將惠及更多用戶。

與 GPT-3.5 和 GPT-4 相比,GPT-4o 在語音交流方面表現突出。數據顯示,GPT-3.5 的平均語音反應延遲為 2.8 秒,而 GPT-4 則延長至 5.4 秒,影響了對話的流暢度。然而,隨著技術優化,GPT-4o 大幅減少了延遲,實現了幾乎無縫的對話體驗,並具備快速反應和高度真實的語調,能夠感知和模擬悲傷與興奮等情感,增添了對話的生動性。

在推廣 GPT-4o 語音模式時,OpenAI 強調其對用戶隱私和安全的承諾。公司發言人 Lindsay McCallum 表示,ChatGPT 絕不會模仿任何個人或公共人物的聲音,且不符合預設聲音的輸出將受到嚴格限制,以保護用戶權益和隱私。

隨著 GPT-4o 語音模式的推出,OpenAI 旨在持續引領人工智能技術的創新,為用戶提供更智能、更便捷和更安全的語音互動體驗。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles