يسعى مطورو المؤسسات ورواد الأعمال الأذكياء إلى الاستفادة من واجهة برمجة التطبيقات (API)، التي تعتبر مركزية في تطوير البرمجيات الحديثة، مما يسمح للتطبيقات الخارجية بالاتصال بسلاسة مع المنصات التقنية. قامت OpenAI مؤخرًا بإجراء تحسينات كبيرة على واجهة برمجة التطبيقات الخاصة بنموذج اللغة الكبير GPT-4 Turbo.
أعلنت الشركة عبر حساباتها على منصة X أن نموذج GPT-4 Turbo مع ميزة الرؤية متاح الآن "عالمياً" من خلال واجهتها. تم إدخال قدرات الرؤية جنبًا إلى جنب مع تحميل الصوت في سبتمبر 2023، بينما تم الكشف عن GPT-4 Turbo في مؤتمر مطوري OpenAI في نوفمبر. يعد هذا الإصدار بمعالجة أسرع، ونوافذ سياق إدخال أكبر (تصل إلى 128,000 رمز—ما يعادل تقريباً كتابًا مكونًا من 300 صفحة)، واستخدام فعال من حيث التكلفة.
يمكن للمطورين الآن الاستفادة من ميزات التعرف على الرؤية وتحليلها عبر تنسيق النص JSON واستدعاء الوظائف، مما يسهل أتمتة مجموعة متنوعة من الإجراءات داخل التطبيقات المتصلة—مثل إرسال الرسائل الإلكترونية، والنشر عبر الإنترنت، أو القيام بعمليات الشراء. وتؤكد OpenAI على أهمية تنفيذ تدفقات تأكيد المستخدم قبل تنفيذ أي إجراءات تؤثر على بيئة المستخدمين.
وصرح متحدث باسم OpenAI بأن هذه التحسينات تسهم في تبسيط سير عمل المطورين، حيث كان عليهم سابقًا استخدام نماذج منفصلة للنصوص والصور. الآن، يمكن من خلال استدعاء واحد للواجهة إجراء تحليل وصياغة للصورة بسلاسة.
تستعرض OpenAI عدة عملاء يستخدمون GPT-4 Turbo مع ميزة الرؤية، بما في ذلك Cognition، وهي شركة ناشئة تستخدم النموذج لتوليد التعليمات البرمجية بشكل تلقائي، وHealthify، وهو تطبيق صحي ولياقة يقدم تحليلات غذائية وتوصيات وجبات تستند إلى صور قدمها المستخدمون. بالإضافة إلى ذلك، تستخدم الشركة الناشئة البريطانية TLDraw GPT-4 Turbo مع ميزة الرؤية لتحسين لوحها الافتراضي، وتحويل رسومات المستخدمين إلى مواقع ويب عملية.
على الرغم من أن GPT-4 Turbo واجه منافسة من نماذج أحدث مثل Claude 3 Opus من Anthropic، وCommand R+ من Cohere، وGemini Advanced من Google في اختبارات الأداء، فإن إطلاق GPT-4 Turbo مع ميزة الرؤية يهدف إلى جذب المزيد من العملاء والشركات المطورة. يضع هذا التحرك نماذج OpenAI كخيار جذاب في انتظار إطلاق نموذج اللغة الكبير التالي في الصناعة.