OpenAI 最近推出了 ChatGPT 的重大更新,新增語音和影像功能,使這款人工智慧聊天機器人能夠更有效地「看」、「聽」和「說」。這次提升為用戶提供了「更直觀的界面」,使他們能以動態的新方式與平台互動。
全新的影像功能允許用戶上傳照片,以收集信息或根據圖片的特定元素提問。例如,若您想了解艾菲爾鐵塔,只需拍一張照片並用作提示。遇到數學問題?拍下您的作業,標出困難的題目,讓 ChatGPT 幫助您解答。
除了影像提示,ChatGPT 現在還支持語音互動。用戶可用語音要求食譜創意或請求睡前故事。AI 不僅能處理請求,還會以語音形式回應,進一步提升用戶體驗。
這些語音和影像功能將在接下來的兩週內向 ChatGPT Plus 和企業用戶推出。語音功能兼容 iOS 和 Android 設備,但用戶需在“設置”菜單中選擇啟用。影像功能則可在所有平台上使用。
OpenAI 表示,開發者將在這些功能發布後不久獲得訪問權限,具體時間尚未確認。
理解影像互動
ChatGPT 的增強影像功能利用了其 GPT-3.5 和 GPT-4 模型的多模態版本。用戶可以同時上傳一張或多張圖片與文字提示。若想專注於圖片的特定元素,移動界面允許使用繪圖工具進行輕鬆標註。
舉例來說,一名自行車手若需調整座椅高度,可以上傳相關照片,並獲得關於定位快拆杠或螺栓的清晰指導。
OpenAI 強調,ChatGPT 的視覺能力旨在協助用戶處理實用的日常任務。該公司解釋說:“當它能看到您所看到的時,它的表現最佳。”
探索語音互動
全新的語音功能改變了用戶與 ChatGPT 的互動方式,使其能夠進行引人入勝和動態的對話。這一能力超越了普通消費級 AI 助手,如 Siri、Alexa 和 Google Home。一個新開發的文本轉語音模型能將簡單的文字提示轉換為類人音頻,而專業的配音演員也為其提供了多種聲音選擇。
此外,OpenAI 利用其 Whisper 語音識別模型準確地將口語轉換為文本。用戶可以通過設置中的「新功能」選項卡自定義體驗,選擇五種可用聲音中的首選聲音。
OpenAI 還在與流媒體服務 Spotify 合作,以增強其語音聊天功能,支持播客內容的自動翻譯。
確保安全與隱私
OpenAI 致力於保持這些新功能的用戶安全。該組織已實施多種安全措施,並與第三方合作,以識別潛在風險和限制。此外,技術限制已設立,以最小化對影像中個體的分析,確保模型邊界的透明度。
已進行徹底測試,以應對例如防止濫用和保持隱私等各種顧慮。OpenAI 認識到 ChatGPT 在處理非英語語言時,特別是使用非羅馬字母的語言,可能面臨挑戰,建議非英語用戶在用於此目的時保持謹慎。
隨著這些功能的推出,用戶可以期待與 ChatGPT 之間更豐富和互動的體驗,徹底改變他們獲取信息和與這一先進 AI 工具互動的方式。