جوجل ديب مايند تكشف عن "جكو": معيار شامل جديد لتقييم مولدات الصور الذكية.

Home أخبار الذكاء الاصطناعي جوجل ديب مايند تكشف عن "جكو": معيار شامل جديد لتقييم مولدات الصور الذكية.

Updated on أبريل 28 2024

قد تكون قد شاهدت مؤخرًا بعض الصور المدهشة التي تم إنشاؤها بواسطة الذكاء الاصطناعي، مثل رائد فضاء يمتطي حصانًا أو أفوكادو يجلس على كرسي المعالج النفسي. هذه الصور الجذابة تعتمد على نماذج ذكاء اصطناعي مصممة لتحويل النصوص إلى صور. لكن، هل تفهم هذه الأنظمة طلباتنا حقًا كما توحي الأمثلة الرائعة؟

تكشف دراسة حديثة من Google DeepMind عن القيود الخفية في أساليب التقييم الحالية لنماذج تحويل النص إلى صورة. نشرت دراستهم، التي ظهرت على خادم ما قبل الطباعة arXiv، نهجًا جديدًا يسمى "Gecko"، يهدف إلى توفير معيار أكثر شمولية وموثوقية لهذه التقنية المتطورة.

وفقًا لفريق DeepMind في ورقتهم "إعادة النظر في تقييم تحويل النص إلى صورة باستخدام Gecko: حول المعايير، والطلبات، وتقييمات البشر"، يقولون: "بينما أصبحت نماذج النماذج التوليدية الشائعة، لا تعني أنها تولد صورًا تتماشى مع الطلبات المقدمة." ويؤكدون أن مجموعات البيانات الحالية والمعايير التلقائية المستخدمة لتقييم نماذج مثل DALL-E وMidjourney وStable Diffusion غالبًا ما تفشل في التقاط الصورة الكاملة. التقييمات البشرية المحدودة والمعايير الآلية يمكن أن تتجاهل الفروق الدقيقة الأساسية وقد تؤدي إلى تباين مع الأحكام البشرية.

تقديم Gecko: معيار جديد لنماذج تحويل النص إلى صورة

لمعالجة هذه القضايا، طور الباحثون Gecko - مجموعة معيارية ترفع بشكل كبير من معايير تقييم نماذج تحويل النص إلى صورة. تتحدى Gecko النماذج بـ 2000 طلب نصي متنوع يستكشف مهارات ومستويات تعقيد متعددة. من خلال تفكيك الطلبات إلى مهارات فرعية محددة، يساعد Gecko في كشف نقاط الضعف الدقيقة في النماذج.

توضح المؤلفة المشاركة أوليفيا ويلز: "تقوم هذه المعيارية المعتمدة على المهارات بتصنيف الطلبات إلى مهارات فرعية، مما يسمح للممارسين بتحديد المهارات التي تمثل تحديًا وفي أي مستوى من التعقيد."

يعزز إطار Gecko تقييم الذكاء الاصطناعي القائم على تحويل النص إلى صورة من خلال دمج (أ) مجموعة بيانات معيارية شاملة قائمة على المهارات، (ب) تعليقات بشرية واسعة النطاق على مختلف النماذج، (ج) معيار تقييم تلقائي محسّن، و(د) رؤى حول أداء النماذج عبر مجموعة من المعايير. تهدف هذه الدراسة إلى تسهيل تقييم أكثر دقة وموثوقية للأنظمة الشائعة للذكاء الاصطناعي.

صورة أكثر دقة لقدرات الذكاء الاصطناعي

جمع الباحثون أيضًا أكثر من 100,000 تقييم بشري للصور التي أنشأتها عدة نماذج رائدة استجابةً لطلبات Gecko. تتيح هذه الكمية الهائلة من التعليقات للمعيار تحديد ما إذا كانت الفجوات في الأداء ناتجة عن قيود حقيقية للنموذج، أو طلبات غامضة، أو أساليب تقييم غير متسقة.

تقول الدراسة: "نجمع تقييمات بشرية عبر أربعة نماذج وأربعة قوالب لتحويل النص إلى صورة بإجمالي يزيد عن 100,000 تعليق". "هذا يسمح لنا بتفريق الغموض في الطلبات والاختلافات المرتبطة بجودة المقياس والنموذج."

تتميز Gecko أيضًا بمعيار تقييم تلقائي محسّن يعتمد على أسئلة وتقييمات، مما يتوافق بشكل أفضل مع الأحكام البشرية مقارنةً بالمعايير الحالية. عند تقييم النماذج المتقدمة باستخدام المعيار الجديد، كشفت هذه التركيبة عن اختلافات لم تُكتشف سابقًا في نقاط القوة والضعف الخاصة بها.

تشير الورقة إلى أنه "نقدم معيار تقييم تلقائي جديد قائم على الأسئلة والأجوبة يتوافق بشكل أفضل مع تقييمات البشر من المعايير الحالية عبر قوالب بشرية مختلفة وعلى TIFA160". تجدر الإشارة إلى أن نموذج DeepMind Muse تفوق خلال امتحان Gecko.

يهدف الباحثون إلى تسليط الضوء على أهمية استخدام معايير متنوعة وأساليب تقييم لفهم ما يمكن وما لا يمكن للذكاء الاصطناعي القائم على تحويل النص إلى صورة أن يفعله قبل تطبيقه في العالم الحقيقي. يخططون لجعل كود Gecko والبيانات متاحة للجمهور لتعزيز المزيد من التقدم في هذا المجال.

تختتم ويلز: "تظهر دراستنا أن اختيار مجموعة البيانات والمعيار يؤثر بشكل كبير على الأداء المدرك". "نأمل أن يمكّن Gecko من تحقيق تقييمات وتشخيصات أكثر دقة لقدرات النماذج في المستقبل."

لذا، بينما قد تثير تلك الصورة المدهشة المولدة بواسطة الذكاء الاصطناعي الإعجاب للوهلة الأولى، فإن الاختبار الشامل ضروري لتمييز الجودة الحقيقية عن الأوهام. يوفر Gecko خارطة طريق لتحقيق هذه الوضوح.

فورتيكس تقدم "كي إنسايت": حلاً لمساعدة المؤسسات على إدارة مخاطر الأمن التشفيري.

استغلال النماذج اللغوية الكبيرة لتجاوز المنافسين: دليل استراتيجي لقادة المؤسسات

Most people like

Carter Chat

122.3K

اكتشف وتفاعل واستمتع بعالم شخصيات الذكاء الاصطناعي. أطلق خيالك وتواصل مع شخصيات افتراضية مبتكرة لتجربة مليئة بالمرح!

محادثة كارتير AI Character

SEO Bot

SEO بوت هو منصة مدعومة بالذكاء الاصطناعي للمؤسسين المشغولين، تعتني باحتياجات تحسين محركات البحث والمدونات الخاصة بك، مما يتيح لك التركيز على أعمالك الأساسية.

تحسين محركات البحث AI SEO Assistant

Jupitrr AI Video Maker

167K

أنشئ مقاطع B-roll مذهلة بسهولة مع صانع الفيديو المدعوم بالذكاء الصناعي. مصمم لتبسيط عملية إنتاج الفيديو الخاصة بك، يقوم هذا الأداة المبتكرة تلقائيًا بتوليد محتوى B-roll عالي الجودة، مما يوفر لك الوقت ويعزز التأثير العام لمقاطعك. ارتقِ بسرد القصص لديك وزد من تفاعل الجمهور من خلال دمج بصري جذاب بسلاسة.

صانع الفيديو الذكي AI Personalized Video Generator

AI t-shirt design generator

187.8K

أطلق إبداعك من خلال تصميم وتخصيص التيشرتات باستخدام أحدث تقنيات الذكاء الاصطناعي. حول أفكارك إلى ملابس رائعة تُميزك، مما يتيح لك التعبير عن شخصيتك بسهولة. اكتشف كيف يمكن للذكاء الاصطناعي أن يحدث ثورة في تجربة تصميم التيشرتات الخاصة بك اليوم!

مولد تصميم الذكاء الاصطناعي AI Photo & Image Generator

Find AI tools in YBX