أحدثت OpenAI ضجة كبيرة قبل مؤتمر المطورين الخاص بجوجل I/O بإطلاق نموذجها الجديد للذكاء الاصطناعي، GPT-4o (اختصار لـ GPT-4 Omni). سيكون هذا النموذج القوي متاحًا مجانًا للمستخدمين النهائيين كنظام خلفي لـ ChatGPT، وكخدمة مدفوعة لمطوري البرمجيات عبر واجهة برمجة التطبيقات (API) من OpenAI، مما يتيح لهم إنشاء تطبيقات مخصصة للعملاء أو الفرق.
تم تصميم GPT-4o كنموذج متعدد الوسائط، وهو أسرع وأكثر كفاءة وموثوقية مقارنةً بنماذج سابقة—وربما العديد من المنافسين. هذه التطورات ضرورية لمطوري البرمجيات الراغبين في دمج قدرات الذكاء الاصطناعي في تطبيقاتهم. وقد أوضح أوليفييه جوديمونت، رئيس قسم منتج واجهة برمجة التطبيقات، ومدير المنتج أوين كامبل-مور، أهمية النموذج خلال مؤتمر وسائل الإعلام الحصري.
كما ذكر جوديمونت: "يجب أن تتكيف أجهزة الكمبيوتر مع التفاعل البشري بدلاً من أن نت conform إلى القيود التقنية." مع GPT-4o، يمكن للمطورين تحسين التطبيقات بدءًا من روبوتات خدمة العملاء إلى الأدوات الداخلية التي تساعد الموظفين في استفسارات حول السياسات والمصروفات وتذاكر الدعم. توفر قدرة GPT-4o المطورين إمكانيات لبناء أعمال كاملة على هذه التكنولوجيا المتقدمة.
كيف يبتكر GPT-4o
على عكس النماذج السابقة التي كانت تتطلب إعدادات معقدة للتعامل مع التفاعلات الصوتية—من خلال دمج نماذج صوتية ونصية منفصلة—يبسط GPT-4o هذه العملية. يقوم بمعالجة الوسائط المتعددة مباشرة إلى رموز، مما يمثل خطوة ثورية في الذكاء الاصطناعي متعدد الوسائط حقاً. يؤدي هذا الانتقال إلى تحسينات ملحوظة في السرعة؛ حيث يمكن لـ GPT-4o الاستجابة للمدخلات الصوتية في 232 مللي ثانية فقط، مما يتوافق مع سرعة المحادثة البشرية، مقارنةً بالمدة البطيئة لعدة ثوانٍ لـ GPT-4.
علاوة على ذلك، يقوم GPT-4o بالتقاط معلومات أكثر دقة من المحفزات المعقدة، مما يعزز من فهمه لمدخلات المستخدمين. بينما كانت النماذج السابقة تواجه صعوبة في فهم المشاعر أو السياق في الاتصالات المنطوقة، يتقن GPT-4o تفسير النبرة وديناميات المتحدث، وحتى التعبير عن المشاعر من خلال تفاعلاته. كما أوضح جوديمونت: "مع نموذج واحد، لا يوجد فقدان للإشارة."
الكفاءة التكلفة وقابلية التوسع
تقوم OpenAI بنقل تخفيضات تكاليف التشغيل إلى المطورين، حيث يتم تسعير GPT-4o بنصف تكلفة GPT-4—فقط 5 دولارات لكل مليون رمز إدخال و15 دولارًا للرموز الناتجة. كما أصبح تحليل الصور أقل تكلفة، مما يجعله أكثر وصولاً للمطورين. علاوة على ذلك، زادت حدود الرسائل من 2 مليون إلى 10 ملايين رمز في الدقيقة، مما يحسن أداء التطبيقات بشكل كبير.
قال كامبل-مور: "هذه الكفاءة ضرورية للمطورين"، معترفًا بالتحديات السابقة للسرعة والتكاليف في نماذج اللغة الكبيرة. "من المتوقع أن يشجع GPT-4o المزيد من المطورين لدمج OpenAI في تطبيقاتهم."
فرص التطبيقات المحتملة
يمكن لـ GPT-4o استبدال الأطر الحالية للذكاء الاصطناعي في التطبيقات الخارجية بسلاسة، خاصة في تطبيقات المساعد الشخصي والتركيز الصوتي. يعتقد جوديمونت أن هذا النموذج سيساهم في إنشاء تطبيقات مبتكرة تركز على الصوت، مما يغير جذريًا التفاعل بين الإنسان والحاسوب.
معايير أمان البيانات
بالنسبة للمستخدمين الفرديين لـ ChatGPT، تتوفر خيارات الاحتفاظ بالبيانات تحت قائمة "الإعدادات". على الجانب الآخر، لا تقوم OpenAI بتخزين بيانات مستخدم واجهة برمجة التطبيقات لأكثر من 30 يومًا، مما يضمن الخصوصية والأمان للمطورين الخارجيين. يتم الاحتفاظ بالمعلومات الصوتية والمرئية والنصية لفترة قصيرة من أجل تدقيق الثقة والأمان، لكن يتم حذفها على الفور بعد ذلك.
القيود مقارنة بالمنافسين
على الرغم من أن GPT-4o يتمتع بقدرات مذهلة، إلا أن لديه نافذة سياق تحتوي على 128,000 رمز—أقل من المنافسين مثل Google Gemini وMeta’s Llama 3، اللذان يقدمان حتى 1 مليون رمز. ومع ذلك، تعادل هذه السعة تقريبا 300 صفحة نصية، مما يوفر قدرة كبيرة للتفاعل الغني.
حالياً، يتوفر GPT-4o للمطورين عبر واجهة برمجة التطبيقات الخاصة بـ OpenAI، ومحدوداً بإمكانيات النص والرؤية. ستتم إضافة الميزات الصوتية والفيديو قريبًا، مع إعلانات تتابع عبر قنوات OpenAI.