ChatGPT 現在擁有視覺、聽覺和聲音：探索升級的人工智慧體驗

Home AI新聞 ChatGPT 現在擁有視覺、聽覺和聲音：探索升級的人工智慧體驗

OpenAI 最近推出了 ChatGPT 的重大更新，新增語音和影像功能，使這款人工智慧聊天機器人能夠更有效地「看」、「聽」和「說」。這次提升為用戶提供了「更直觀的界面」，使他們能以動態的新方式與平台互動。

全新的影像功能允許用戶上傳照片，以收集信息或根據圖片的特定元素提問。例如，若您想了解艾菲爾鐵塔，只需拍一張照片並用作提示。遇到數學問題？拍下您的作業，標出困難的題目，讓 ChatGPT 幫助您解答。

除了影像提示，ChatGPT 現在還支持語音互動。用戶可用語音要求食譜創意或請求睡前故事。AI 不僅能處理請求，還會以語音形式回應，進一步提升用戶體驗。

這些語音和影像功能將在接下來的兩週內向 ChatGPT Plus 和企業用戶推出。語音功能兼容 iOS 和 Android 設備，但用戶需在“設置”菜單中選擇啟用。影像功能則可在所有平台上使用。

OpenAI 表示，開發者將在這些功能發布後不久獲得訪問權限，具體時間尚未確認。

理解影像互動

ChatGPT 的增強影像功能利用了其 GPT-3.5 和 GPT-4 模型的多模態版本。用戶可以同時上傳一張或多張圖片與文字提示。若想專注於圖片的特定元素，移動界面允許使用繪圖工具進行輕鬆標註。

舉例來說，一名自行車手若需調整座椅高度，可以上傳相關照片，並獲得關於定位快拆杠或螺栓的清晰指導。

OpenAI 強調，ChatGPT 的視覺能力旨在協助用戶處理實用的日常任務。該公司解釋說：“當它能看到您所看到的時，它的表現最佳。”

探索語音互動

全新的語音功能改變了用戶與 ChatGPT 的互動方式，使其能夠進行引人入勝和動態的對話。這一能力超越了普通消費級 AI 助手，如 Siri、Alexa 和 Google Home。一個新開發的文本轉語音模型能將簡單的文字提示轉換為類人音頻，而專業的配音演員也為其提供了多種聲音選擇。

此外，OpenAI 利用其 Whisper 語音識別模型準確地將口語轉換為文本。用戶可以通過設置中的「新功能」選項卡自定義體驗，選擇五種可用聲音中的首選聲音。

OpenAI 還在與流媒體服務 Spotify 合作，以增強其語音聊天功能，支持播客內容的自動翻譯。

確保安全與隱私

OpenAI 致力於保持這些新功能的用戶安全。該組織已實施多種安全措施，並與第三方合作，以識別潛在風險和限制。此外，技術限制已設立，以最小化對影像中個體的分析，確保模型邊界的透明度。

已進行徹底測試，以應對例如防止濫用和保持隱私等各種顧慮。OpenAI 認識到 ChatGPT 在處理非英語語言時，特別是使用非羅馬字母的語言，可能面臨挑戰，建議非英語用戶在用於此目的時保持謹慎。

隨著這些功能的推出，用戶可以期待與 ChatGPT 之間更豐富和互動的體驗，徹底改變他們獲取信息和與這一先進 AI 工具互動的方式。

64.5K

Letterdrop 是一款先進的 AI 驅動 SEO 工具，旨在通過有效理解和響應用戶搜索意圖來提升網站流量。

SEO內容優化 AI Content Generator

165.4K

探索無限制訪問頂級在線商業教育的自由。

商業教育 AI Advertising Assistant

266.3K

歡迎來到這個頂尖活動及網絡平台，旨在連結專業人士並促進有意義的關係。體驗無與倫比的機會，擴展您的人脈並與行業領袖互動。

活動平台 AI Product Description Generator

88.7K

Rannkly 是一個先進的人工智慧驅動平台，旨在提升您的在線聲譽並優化您的社交媒體存在。了解這款創新工具如何改變您與受眾互動的方式，並維持正面的品牌形象。

在線聲譽管理工具 AI Advertising Assistant

Find AI tools in YBX