企業開發者和精明的商業領袖深知,應用程式介面(API)是現代軟體開發的核心,促使第三方應用能夠無縫連接到技術平台。OpenAI 最近對其強大的 GPT-4 Turbo 大型語言模型(LLM)的 API 進行了重要升級。
該公司在其 X 帳號上宣布,GPT-4 Turbo 視覺模型現在已通過 API "普遍可用"。視覺功能與音頻上傳於 2023 年 9 月一同推出,而 GPT-4 Turbo 則在 OpenAI 的開發者大會上於 11 月首次亮相。這個版本承諾提供更快的處理速度、更大的輸入上下文窗口(最高可達 128,000 個標記,相當於約 300 頁書籍),以及具成本效益的使用。
開發者現在可以通過文本格式的 JSON 和函數調用,利用模型的視覺識別和分析功能,實現連接應用中的各種操作自動化,例如發送電子郵件、在線發帖或進行購物。OpenAI 強調在執行影響用戶環境的操作之前,實施用戶確認程序的重要性。
OpenAI 的發言人表示,這些升級簡化了開發者的工作流程,因為他們之前需要使用不同的模型處理文本和圖像。現在,僅需一個 API 調用就能實現無縫的圖像分析和推理。
OpenAI 展示了幾個利用 GPT-4 Turbo 視覺的客戶,包括 Cognition 這家初創公司,該公司運用此模型自動生成代碼;以及健康與健身應用 Healthify,提供用戶提交照片的營養分析和餐飲建議。此外,英國初創公司 TLDraw 利用 GPT-4 Turbo 視覺技術來增強其虛擬白板,將用戶的繪圖轉換為功能性網站。
儘管 GPT-4 Turbo 在基準測試中面臨來自新模型如 Anthropic 的 Claude 3 Opus、Cohere 的 Command R+ 和 Google 的 Gemini Advanced 的競爭,但 GPT-4 Turbo 視覺的推出旨在吸引更多企業客戶和開發者。這一舉措使 OpenAI 的模型成為業界在期待下個 LLM 發布的時候更具吸引力的選擇。