企業開発者やビジネスリーダーが認識しているように、アプリケーションプログラミングインターフェース(API)は現代のソフトウェア開発において中心的な役割を果たし、サードパーティアプリケーションがテクノロジープラットフォームとシームレスに接続することを可能にします。最近、OpenAIは強力なGPT-4 Turbo大規模言語モデル(LLM)のAPIに重要な改善を加えました。
OpenAIは、Xアカウントで、GPT-4 Turbo with VisionモデルがAPI経由で「一般提供開始」されたことを発表しました。この視覚機能は、2023年9月にオーディオアップロードと共に導入され、GPT-4 Turboは11月の開発者会議で発表されました。今回のバージョンでは、処理速度の向上、最大128,000トークン(約300ページの書籍に相当)の大きな入力コンテキストウィンドウ、コスト効果の高い利用が約束されています。
開発者は、テキスト形式のJSONやファンクションコールを介して、モデルの視覚認識および分析機能を活用できるようになり、接続されたアプリ内での様々なアクション(例:メール送信、オンライン投稿、購入)の自動化が可能です。OpenAIは、ユーザーの環境に影響を与えるアクションを実行する前に、ユーザー確認フローを実装する重要性を強調しています。
OpenAIの広報担当者によると、これらの改善により、開発者のワークフローが合理化され、これまではテキストと画像用に別々のモデルを使用していたことが解消されました。現在では、単一のAPIコールでシームレスな画像分析と推論が可能です。
OpenAIは、GPT-4 Turbo with Visionを活用しているいくつかの顧客事例を紹介しています。中でも、スタートアップのCognitionがこのモデルを用いて自動的にコードを生成していることや、ユーザーが投稿した写真から栄養分析や食事提案を行う健康・フィットネスアプリHealthifyがその一例です。また、英国を拠点とするスタートアップTLDrawは、GPT-4 Turbo with Visionを利用して、ユーザーの図面を機能的なウェブサイトに変換する仮想ホワイトボードを強化しています。
GPT-4 Turboは、AnthropicのClaude 3 OpusやCohereのCommand R+、GoogleのGemini Advancedなどの新しいモデルとの競争に直面していますが、Vision機能を搭載したGPT-4 Turboのローンチは、より多くの企業顧客や開発者を惹きつけることを目的としています。この動きは、業界が次期LLMのリリースを前に、OpenAIのモデルを魅力的な選択肢として位置づけるものです。