今天,OpenAI 在春季更新活動中,首席技術官 Mira Murati 揭示了 GPT-4o(GPT-4 Omni),這是一款嶄新的多模態大型語言模型(LLM),將在未來幾周內向免費的 ChatGPT 用戶開放。此外,一款全新的 macOS 桌面 ChatGPT 應用程序(Windows 支持將稍後推出)將讓用戶能夠超越網頁和移動應用訪問該平台。
Murati 解釋道:“GPT-4o 能夠理解語音、文本和視覺信息。” 她強調了它能夠即時接收並分析用戶通過 ChatGPT 智能手機應用程序捕捉的視頻,儘管這一功能尚未公開啟用。“這種感覺就像魔法一樣,但我們希望讓它不再神秘,讓你親自體驗。”
這款新模型可以即時音頻回應,從音頻和視頻輸入中檢測用戶的情緒狀態,並調整聲音語調以表達不同情感,類似於競爭對手 AI 初創公司 Hume 的產品。在一次演示中,演示者要求基於 GPT-4o 的 ChatGPT 敘述一個愈加戲劇化的故事,ChatGPT 迅速地執行了這一要求。它在被打斷時會聰明地停止講話,並在繼續之前仔細傾聽。
OpenAI 分享了展示 GPT-4o 功能的演示視頻,指出其能夠在 232 毫秒內回應音頻輸入,平均反應時間為 320 毫秒,與人類的對話反應時間相當。OpenAI 解釋了 GPT-4o 如何提升用戶體驗,表示:“在 GPT-4o 之前,語音模式的延遲時間為 2.8 秒(GPT-3.5)和 5.4 秒(GPT-4),使用三個獨立模型。這意味著主要的智能來源—GPT-4—無法完全感知語氣、多位說話者或背景聲音。”
使用 GPT-4o,所有輸入和輸出都由一個端到端的神經網絡處理,結合文本、視覺和音頻創造更豐富的互動。它甚至可以生成圖像的多個視角,並將其轉換為 3D 物體。
然而,OpenAI 目前尚未宣布開源 GPT-4o 或任何新的模型計劃。儘管用戶可以通過 OpenAI 的網站和 API 探索該模型的功能,但無法獲取基礎模型的權重以進行自定義,這是聯合創始人 Elon Musk 提出的批評之一。
GPT-4o 的推出顯著提升了免費版 ChatGPT 的使用體驗。免費用戶將不再局限於文本-only 的 GPT-3.5 模型,而是可以訪問具備分析圖像和文檔、更佳的網頁瀏覽、數據分析、自定義 GPT 和通過簡單提示保留用戶偏好的內存存儲的更先進模型。在一個現場演示中,展示者展示了 ChatGPT 基於 GPT-4o 的實時翻譯功能,在義大利語和英語之間進行口語翻譯。
OpenAI 也強調:“ChatGPT 現在支持超過 50 種語言的註冊、登錄和用戶設置。”此外,GPT-4o 在理解和討論共享圖像方面表現出色,並能創造一致的 AI 藝術角色,這是許多現有 AI 藝術生成器所無法實現的。
最初,GPT-4o 將僅對付費用戶開放,並逐步推廣到免費用戶:“我們將首批開放給 ChatGPT Plus 和 Team 用戶,企業用戶的訪問將隨後推出。免費用戶將會有使用限制。”OpenAI 表示。
在社交媒體上,OpenAI 確認“文本和圖像輸入”今日已在 API 中推出,而語音和視頻功能將在未來幾周內啟用。API 將以更低的價格提供 GPT-4o,速度也將是 GPT-4 Turbo 的兩倍,第三方開發者的調用限制將增加。
OpenAI 首席執行官 Sam Altman 反思了公司的發展使命:“我們的目標是創造對社會有益的 AI,現在看來我們將開發能夠賦能他人創新的 AI,讓每個人都受益。”在他的博客中,Altman 指出:“我們的主要使命是以實惠的價格提供強大的 AI 工具。我為我們通過 ChatGPT 免費提供全球最佳模型而感到驕傲。”
全新的 ChatGPT 桌面應用程序將分階段推出,首先在 macOS 上啟動,然後在 Windows 上推出。Murati 揭示,目前有超過 1 億人使用 ChatGPT,並創建了超過 100 萬個自定義 GPT。儘管活動僅持續了 26 分鐘,有些現場演示略顯尷尬,但即將推出的技術承諾將提升用戶體驗,提供比以往版本更自然、更強大的界面。