جوجل ديب مايند تكشف عن "جكو": معيار شامل جديد لتقييم مولدات الصور الذكية.

Home أخبار الذكاء الاصطناعي جوجل ديب مايند تكشف عن "جكو": معيار شامل جديد لتقييم مولدات الصور الذكية.

Updated on أبريل 28 2024

قد تكون قد شاهدت مؤخرًا بعض الصور المدهشة التي تم إنشاؤها بواسطة الذكاء الاصطناعي، مثل رائد فضاء يمتطي حصانًا أو أفوكادو يجلس على كرسي المعالج النفسي. هذه الصور الجذابة تعتمد على نماذج ذكاء اصطناعي مصممة لتحويل النصوص إلى صور. لكن، هل تفهم هذه الأنظمة طلباتنا حقًا كما توحي الأمثلة الرائعة؟

تكشف دراسة حديثة من Google DeepMind عن القيود الخفية في أساليب التقييم الحالية لنماذج تحويل النص إلى صورة. نشرت دراستهم، التي ظهرت على خادم ما قبل الطباعة arXiv، نهجًا جديدًا يسمى "Gecko"، يهدف إلى توفير معيار أكثر شمولية وموثوقية لهذه التقنية المتطورة.

وفقًا لفريق DeepMind في ورقتهم "إعادة النظر في تقييم تحويل النص إلى صورة باستخدام Gecko: حول المعايير، والطلبات، وتقييمات البشر"، يقولون: "بينما أصبحت نماذج النماذج التوليدية الشائعة، لا تعني أنها تولد صورًا تتماشى مع الطلبات المقدمة." ويؤكدون أن مجموعات البيانات الحالية والمعايير التلقائية المستخدمة لتقييم نماذج مثل DALL-E وMidjourney وStable Diffusion غالبًا ما تفشل في التقاط الصورة الكاملة. التقييمات البشرية المحدودة والمعايير الآلية يمكن أن تتجاهل الفروق الدقيقة الأساسية وقد تؤدي إلى تباين مع الأحكام البشرية.

تقديم Gecko: معيار جديد لنماذج تحويل النص إلى صورة

لمعالجة هذه القضايا، طور الباحثون Gecko - مجموعة معيارية ترفع بشكل كبير من معايير تقييم نماذج تحويل النص إلى صورة. تتحدى Gecko النماذج بـ 2000 طلب نصي متنوع يستكشف مهارات ومستويات تعقيد متعددة. من خلال تفكيك الطلبات إلى مهارات فرعية محددة، يساعد Gecko في كشف نقاط الضعف الدقيقة في النماذج.

توضح المؤلفة المشاركة أوليفيا ويلز: "تقوم هذه المعيارية المعتمدة على المهارات بتصنيف الطلبات إلى مهارات فرعية، مما يسمح للممارسين بتحديد المهارات التي تمثل تحديًا وفي أي مستوى من التعقيد."

يعزز إطار Gecko تقييم الذكاء الاصطناعي القائم على تحويل النص إلى صورة من خلال دمج (أ) مجموعة بيانات معيارية شاملة قائمة على المهارات، (ب) تعليقات بشرية واسعة النطاق على مختلف النماذج، (ج) معيار تقييم تلقائي محسّن، و(د) رؤى حول أداء النماذج عبر مجموعة من المعايير. تهدف هذه الدراسة إلى تسهيل تقييم أكثر دقة وموثوقية للأنظمة الشائعة للذكاء الاصطناعي.

صورة أكثر دقة لقدرات الذكاء الاصطناعي

جمع الباحثون أيضًا أكثر من 100,000 تقييم بشري للصور التي أنشأتها عدة نماذج رائدة استجابةً لطلبات Gecko. تتيح هذه الكمية الهائلة من التعليقات للمعيار تحديد ما إذا كانت الفجوات في الأداء ناتجة عن قيود حقيقية للنموذج، أو طلبات غامضة، أو أساليب تقييم غير متسقة.

تقول الدراسة: "نجمع تقييمات بشرية عبر أربعة نماذج وأربعة قوالب لتحويل النص إلى صورة بإجمالي يزيد عن 100,000 تعليق". "هذا يسمح لنا بتفريق الغموض في الطلبات والاختلافات المرتبطة بجودة المقياس والنموذج."

تتميز Gecko أيضًا بمعيار تقييم تلقائي محسّن يعتمد على أسئلة وتقييمات، مما يتوافق بشكل أفضل مع الأحكام البشرية مقارنةً بالمعايير الحالية. عند تقييم النماذج المتقدمة باستخدام المعيار الجديد، كشفت هذه التركيبة عن اختلافات لم تُكتشف سابقًا في نقاط القوة والضعف الخاصة بها.

تشير الورقة إلى أنه "نقدم معيار تقييم تلقائي جديد قائم على الأسئلة والأجوبة يتوافق بشكل أفضل مع تقييمات البشر من المعايير الحالية عبر قوالب بشرية مختلفة وعلى TIFA160". تجدر الإشارة إلى أن نموذج DeepMind Muse تفوق خلال امتحان Gecko.

يهدف الباحثون إلى تسليط الضوء على أهمية استخدام معايير متنوعة وأساليب تقييم لفهم ما يمكن وما لا يمكن للذكاء الاصطناعي القائم على تحويل النص إلى صورة أن يفعله قبل تطبيقه في العالم الحقيقي. يخططون لجعل كود Gecko والبيانات متاحة للجمهور لتعزيز المزيد من التقدم في هذا المجال.

تختتم ويلز: "تظهر دراستنا أن اختيار مجموعة البيانات والمعيار يؤثر بشكل كبير على الأداء المدرك". "نأمل أن يمكّن Gecko من تحقيق تقييمات وتشخيصات أكثر دقة لقدرات النماذج في المستقبل."

لذا، بينما قد تثير تلك الصورة المدهشة المولدة بواسطة الذكاء الاصطناعي الإعجاب للوهلة الأولى، فإن الاختبار الشامل ضروري لتمييز الجودة الحقيقية عن الأوهام. يوفر Gecko خارطة طريق لتحقيق هذه الوضوح.

فورتيكس تقدم "كي إنسايت": حلاً لمساعدة المؤسسات على إدارة مخاطر الأمن التشفيري.

استغلال النماذج اللغوية الكبيرة لتجاوز المنافسين: دليل استراتيجي لقادة المؤسسات

Most people like

SlidesAI

708.5K

نقدم لكم SlidesAI: أداة مبتكرة مدعومة بالذكاء الاصطناعي مصممة لتلخيص النصوص بسهولة وإنشاء شرائح عرض ديناميكية. قم بتحويل أي محتوى مكتوب إلى مرئيات جذابة بكل يسر، مما يجعل عروضك أكثر تأثيرًا من أي وقت مضى.

مدعوم بالذكاء الاصطناعي AI Presentation Generator

Humbot

1.2M

تجاوز كشف الذكاء الاصطناعي بسهولة باستخدام أداة هومبوت المبتكرة لتحويل النصوص. استمتع بتحولات سلسة للمحتوى تجعل كتابتك تبدو أصيلة وطبيعية.

مُعَزِّز الذكاء الاصطناعي AI Detector

Upheal

100.4K

اكتشف قوة منصتنا المدعومة بالذكاء الاصطناعي، المصممة خصيصاً للمهنيين في مجال الصحة النفسية. تهدف هذه الأداة المبتكرة إلى تحسين الممارسات العلاجية، حيث تسهل إدارة العملاء، وتقدم تحليلات مفيدة، وتعزز التواصل الفعّال، مما يعيد تعريف طريقة دعم المتخصصين للصحة النفسية. انضم إلى الحركة نحو تغيير رعاية الصحة النفسية من خلال التكنولوجيا المتطورة التي تمكّن المهنيين من تقديم أفضل النتائج الممكنة لعملائهم.

الذكاء الاصطناعي AI Notes Assistant

Image to Prompt AI

6.6K

في عالم اليوم الرقمي، أصبحت القدرة على تحويل الصور إلى نصوص باستخدام تكنولوجيا الذكاء الاصطناعي المتقدمة أمراً ضرورياً بشكل متزايد. يتيح أداة تحويل الصور إلى نصوص للمستخدمين استخراج النص من الصور بسهولة، مما يسهل سير العمل، ويوفر الوقت، ويعزز الإنتاجية. سواء لأغراض البحث الأكاديمي، أو توثيق الأعمال، أو المشاريع الشخصية، تجعل هذه الحلول المبتكرة من السهل تحويل النصوص المطبوعة أو المكتوبة بخط اليد إلى تنسيقات رقمية قابلة للتعديل. اكتشف كيف تُحدث الأدوات المدفوعة بالذكاء الاصطناعي ثورة في طريقة تعاملنا مع المعلومات وتجعل تحويل الصور إلى نصوص متاحاً للجميع.

محول الصور إلى نصوص باستخدام الذكاء الاصطناعي Prompt

Find AI tools in YBX