قد تكون قد شاهدت مؤخرًا بعض الصور المدهشة التي تم إنشاؤها بواسطة الذكاء الاصطناعي، مثل رائد فضاء يمتطي حصانًا أو أفوكادو يجلس على كرسي المعالج النفسي. هذه الصور الجذابة تعتمد على نماذج ذكاء اصطناعي مصممة لتحويل النصوص إلى صور. لكن، هل تفهم هذه الأنظمة طلباتنا حقًا كما توحي الأمثلة الرائعة؟
تكشف دراسة حديثة من Google DeepMind عن القيود الخفية في أساليب التقييم الحالية لنماذج تحويل النص إلى صورة. نشرت دراستهم، التي ظهرت على خادم ما قبل الطباعة arXiv، نهجًا جديدًا يسمى "Gecko"، يهدف إلى توفير معيار أكثر شمولية وموثوقية لهذه التقنية المتطورة.
وفقًا لفريق DeepMind في ورقتهم "إعادة النظر في تقييم تحويل النص إلى صورة باستخدام Gecko: حول المعايير، والطلبات، وتقييمات البشر"، يقولون: "بينما أصبحت نماذج النماذج التوليدية الشائعة، لا تعني أنها تولد صورًا تتماشى مع الطلبات المقدمة." ويؤكدون أن مجموعات البيانات الحالية والمعايير التلقائية المستخدمة لتقييم نماذج مثل DALL-E وMidjourney وStable Diffusion غالبًا ما تفشل في التقاط الصورة الكاملة. التقييمات البشرية المحدودة والمعايير الآلية يمكن أن تتجاهل الفروق الدقيقة الأساسية وقد تؤدي إلى تباين مع الأحكام البشرية.
تقديم Gecko: معيار جديد لنماذج تحويل النص إلى صورة
لمعالجة هذه القضايا، طور الباحثون Gecko - مجموعة معيارية ترفع بشكل كبير من معايير تقييم نماذج تحويل النص إلى صورة. تتحدى Gecko النماذج بـ 2000 طلب نصي متنوع يستكشف مهارات ومستويات تعقيد متعددة. من خلال تفكيك الطلبات إلى مهارات فرعية محددة، يساعد Gecko في كشف نقاط الضعف الدقيقة في النماذج.
توضح المؤلفة المشاركة أوليفيا ويلز: "تقوم هذه المعيارية المعتمدة على المهارات بتصنيف الطلبات إلى مهارات فرعية، مما يسمح للممارسين بتحديد المهارات التي تمثل تحديًا وفي أي مستوى من التعقيد."
يعزز إطار Gecko تقييم الذكاء الاصطناعي القائم على تحويل النص إلى صورة من خلال دمج (أ) مجموعة بيانات معيارية شاملة قائمة على المهارات، (ب) تعليقات بشرية واسعة النطاق على مختلف النماذج، (ج) معيار تقييم تلقائي محسّن، و(د) رؤى حول أداء النماذج عبر مجموعة من المعايير. تهدف هذه الدراسة إلى تسهيل تقييم أكثر دقة وموثوقية للأنظمة الشائعة للذكاء الاصطناعي.
صورة أكثر دقة لقدرات الذكاء الاصطناعي
جمع الباحثون أيضًا أكثر من 100,000 تقييم بشري للصور التي أنشأتها عدة نماذج رائدة استجابةً لطلبات Gecko. تتيح هذه الكمية الهائلة من التعليقات للمعيار تحديد ما إذا كانت الفجوات في الأداء ناتجة عن قيود حقيقية للنموذج، أو طلبات غامضة، أو أساليب تقييم غير متسقة.
تقول الدراسة: "نجمع تقييمات بشرية عبر أربعة نماذج وأربعة قوالب لتحويل النص إلى صورة بإجمالي يزيد عن 100,000 تعليق". "هذا يسمح لنا بتفريق الغموض في الطلبات والاختلافات المرتبطة بجودة المقياس والنموذج."
تتميز Gecko أيضًا بمعيار تقييم تلقائي محسّن يعتمد على أسئلة وتقييمات، مما يتوافق بشكل أفضل مع الأحكام البشرية مقارنةً بالمعايير الحالية. عند تقييم النماذج المتقدمة باستخدام المعيار الجديد، كشفت هذه التركيبة عن اختلافات لم تُكتشف سابقًا في نقاط القوة والضعف الخاصة بها.
تشير الورقة إلى أنه "نقدم معيار تقييم تلقائي جديد قائم على الأسئلة والأجوبة يتوافق بشكل أفضل مع تقييمات البشر من المعايير الحالية عبر قوالب بشرية مختلفة وعلى TIFA160". تجدر الإشارة إلى أن نموذج DeepMind Muse تفوق خلال امتحان Gecko.
يهدف الباحثون إلى تسليط الضوء على أهمية استخدام معايير متنوعة وأساليب تقييم لفهم ما يمكن وما لا يمكن للذكاء الاصطناعي القائم على تحويل النص إلى صورة أن يفعله قبل تطبيقه في العالم الحقيقي. يخططون لجعل كود Gecko والبيانات متاحة للجمهور لتعزيز المزيد من التقدم في هذا المجال.
تختتم ويلز: "تظهر دراستنا أن اختيار مجموعة البيانات والمعيار يؤثر بشكل كبير على الأداء المدرك". "نأمل أن يمكّن Gecko من تحقيق تقييمات وتشخيصات أكثر دقة لقدرات النماذج في المستقبل."
لذا، بينما قد تثير تلك الصورة المدهشة المولدة بواسطة الذكاء الاصطناعي الإعجاب للوهلة الأولى، فإن الاختبار الشامل ضروري لتمييز الجودة الحقيقية عن الأوهام. يوفر Gecko خارطة طريق لتحقيق هذه الوضوح.