مع اقتراب الذكرى السنوية الأولى لإطلاق ChatGPT، تم إحراز تقدم كبير في تعزيز نموذج اللغة القوي هذا. قامت OpenAI بإضافة ميزات جديدة، بما في ذلك القدرة على توليد الصور عبر DALL-E 3 والوصول إلى المعلومات في الوقت الفعلي من خلال Bing. ومع ذلك، كانت إدخال وظائف الصوت والصورة هي ما يميز هذا التحديث التحويلي، معيدًا تعريف تفاعلات المستخدمين.
في قلب هذه الابتكارات يوجد GPT-4V، المعروف أيضًا باسم GPT-4 Vision. هذا النموذج المتعدد الوسائط المتطور يمكّن المستخدمين من التفاعل بسلاسة مع النصوص والصور. في التجارب التي أجراها باحثون من Microsoft—الشريك والمستثمر الرئيسي لـ OpenAI—أظهر GPT-4V قدرات استثنائية، بعضها لم يتم اختباره من قبل. تسلط نتائجهم، المقدمة في الدراسة "فجر النماذج المتعددة الوسائط: استكشافات أولية مع GPT-4V(ision)"، الضوء على الإمكانيات الواسعة للنموذج في معالجة المدخلات المعقدة المترابطة، مثل صورة لقائمة بجانب نصها.
ما هو GPT-4V؟
GPT-4V(ision) هو نموذج ذكاء اصطناعي متطور متعدد الوسائط تم تطويره من قبل OpenAI. يمكنه تمكين المستخدمين من طرح أسئلة حول الصور المرفوعة من خلال وظيفة تعرف باسم الإجابة على الأسئلة البصرية (VQA). بدءًا من أكتوبر، سيتمكن مستخدمو اشتراك ChatGPT Plus بقيمة 20 دولارًا في الشهر أو النسخة المؤسسية من الوصول إلى إمكانيات GPT-4V على منصات سطح المكتب وiOS.
الميزات الرئيسية لـ GPT-4V
- التفكير البصري: يمكن لهذا النموذج فهم العلاقات البصرية المعقدة والتفاصيل السياقية، مما يتيح له الإجابة على الأسئلة بناءً على الصور بدلاً من مجرد التعرف على الكائنات.
- اتباع التعليمات: يمكن للمستخدمين تقديم أوامر نصية، مما يمكّن النموذج من أداء مهام جديدة في رؤية اللغة بسهولة.
- التعلم في السياق: يظهر GPT-4V قدرة قوية على التعلم من الأمثلة القليلة، مما يسمح له بالتكيف مع المهام الجديدة مع الحد الأدنى من الأمثلة.
- الإشارة البصرية: يتعرف النموذج على الإشارات البصرية مثل الأسهم والصناديق، مما يمكّن من اتباع التعليمات بدقة.
- التوصيف المكثف: يمكن لـ GPT-4V إنتاج أوصاف مفصلة تتكون من جمل متعددة تنقل العلاقات المعقدة بين المحتويات.
- العد: يمكن لهذا النموذج عد الكائنات في الصورة بدقة وفقًا لاستفسارات المستخدم.
- البرمجة: أظهر القدرة على توليد الشيفرات مثل تحليل JSON بناءً على المدخلات البصرية.
بالمقارنة مع النماذج المتعددة الوسائط السابقة، يمثل GPT-4V تحسينًا ملحوظًا في فهم رؤية اللغة، مما يبرز إمكانياته التحويلية في تطبيقات الذكاء الاصطناعي.
قيود GPT-4V
على الرغم من قدراته المثيرة للإعجاب، لا تخلو GPT-4V من العيوب. قد يواجه المستخدمون، الذين يأملون في استخدامه لمهام معقدة للغاية، تحديات، خاصة عند التعامل مع أوامر فريدة أو مصممة خصيصًا. كما أن أداؤه محدود عند تطبيقه على عينات جديدة أو غير مرئية، حيث تتطلب بعض السيناريوهات المعقدة وجود أوامر مصممة خصيصًا لتعمل بكفاءة.
ظهور النماذج المتعددة الوسائط الكبيرة (LMMs)
يمثل ظهور الذكاء الاصطناعي المتعدد الوسائط تطورًا محوريًا في التكنولوجيا. أصبحت نماذج توليد النص معززة الآن بقدرتها على معالجة الصور، مما يبسط استفسارات وتفاعلات المستخدمين. يقرب هذا التطور OpenAI من تحقيق الذكاء الاصطناعي العام (AGI)، وهو milestone طال انتظاره داخل مجتمع الذكاء الاصطناعي. تلتزم المنظمة بإنشاء AGI ليس فقط قويًا ولكن أيضًا آمنًا للمجتمع، مما يدفع الحكومات لوضع تنظيمات لمراقبة تطويره.
لا تعمل OpenAI وحدها في هذا الجهد؛ بل تستثمر شركات التقنية الأخرى مثل Meta في أبحاث الذكاء الاصطناعي المتعدد الوسائط. تحت إشراف العالم الحائز على جائزة تورينغ يان ليكون، تقوم Meta بتطوير نماذج مثل SeamlessM4T وAudioCraft وVoicebox لإنشاء ميتافيرس شامل. بالإضافة إلى ذلك، تم تأسيس منتدى النماذج المتطورة حديثًا—الذي يضم مطوري الذكاء الاصطناعي الرائدين مثل OpenAI وMicrosoft وGoogle وAnthropic—مكرسًا لتعزيز نماذج الجيل القادم المتعددة الوسائط، مما يبرز أهمية هذا المجال في أبحاث الذكاء الاصطناعي.
مع هذه التطورات، يتطور مشهد الذكاء الاصطناعي بسرعة، مما يظهر وعودًا هائلة للتطبيقات الإبداعية وتحسين تجارب المستخدمين.