بينما يسعى الباحثون في مجال الذكاء الاصطناعي والشركات إلى تطوير نماذج تعلم آلي أكبر وأكثر فعالية، تزداد تحديات تنظيم مجموعات البيانات المناسبة. لمواجهة هذه المشكلة، قدم الباحثون من Meta AI وGoogle وINRIA وجامعة باريس ساكلاي تقنية جديدة للتنظيم التلقائي لمجموعات البيانات عالية الجودة المصممة للتعلم الذاتي-supervised (SSL).
تحسين توازن مجموعة البيانات في التعلم الذاتي-supervised
يلعب التعلم الذاتي-supervised دوراً حيوياً في الذكاء الاصطناعي المعاصر، حيث يدعم أنظمة تختلف من نماذج اللغة الكبيرة إلى التطبيقات المتخصصة مثل التصوير الطبي. على عكس التعلم المراقب الذي يعتمد على أمثلة تدريب مشروحة، يستخدم SSL بيانات غير مُعَلّمة، مما يسمح للنماذج ومجموعات البيانات بالتوسع باستخدام المعلومات الخام.
تشكل جودة البيانات عاملاً مهماً في أداء نماذج SSL، حيث غالباً ما تعاني مجموعات البيانات المستخرجة عشوائياً من الإنترنت من توزيعات غير متوازنة، مما يؤدي إلى تمييز مفاهيم معينة على أخرى نادرة، وبالتالي انحياز النموذج وعدم قدرته على التعميم بشكل فعّال. وفقًا للباحثين، "يجب أن تكون مجموعات البيانات للتعلم الذاتي-supervised كبيرة ومتنوعة ومتوازنة." ويشددون على ضرورة وجود مجموعات بيانات مُنظَّمة تجسد هذه الصفات، مقترحين تشكيل مجموعات فرعية متوازنة من مستودعات البيانات الضخمة المتاحة عبر الإنترنت.
حاليًا، يتطلب تنظيم مجموعات البيانات المتوازنة للتعلم الذاتي-supervised جهداً يدويًا كبيرًا. على الرغم من أنها أقل استهلاكًا للوقت مقارنةً بتAnnotate كل مثال، إلا أن هذه العملية لا تزال تُشكل عقبة أمام التدريب على النماذج واسعة النطاق.
تقنية التنظيم التلقائي لمجموعات البيانات
لتبسيط هذه العملية، يقترح الباحثون طريقة تنظيم تلقائي تنتج مجموعات تدريب متوازنة من البيانات الخام. تستخدم تقنيتهم نماذج التضمين وخوارزميات التجميع لتسليط الضوء على المفاهيم الممثلة تمثيلاً ناقصًا في البيانات.
تبدأ العملية بنموذج لاستخراج الميزات يقوم بحساب التضمينات - التمثيلات العددية التي تلتقط الخصائص الدلالية لأنواع البيانات المختلفة، بما في ذلك الصور والصوت والنص. بعد ذلك، من خلال استخدام التجميع القائم على k-means، يقوم الباحثون بتجميع نقاط البيانات بناءً على أوجه الشبه، وتحديث مراكز المجموعات بشكل تكراري لتكوين تجمعات من الأمثلة ذات الصلة.
غالبًا ما يؤدي التجميع التقليدي القائم على k-means إلى فائض من المجموعات للمفاهيم الممثلة بكثرة. لمعالجة ذلك، ينفذ الباحثون طريقة k-means متعددة الخطوات الهرمية التي تبني التجمعات بطريقة تصاعدية. يتيح هذا النهج المبتكر تطبيق k-means على مستويات المجموعات السابقة خلال كل خطوة جديدة، مما يضمن تمثيلًا متوازنًا عبر جميع المراحل.
تسمح هذه الطريقة الهرمية بالتجميع الشامل، مع الحفاظ على الأمثلة الأقل تمثيلاً مع تقدم الخوارزمية نحو تجمعات علوية أقل ولكن أكثر وصفًا. يصف الباحثون هذه التقنية بأنها "خوارزمية تنظيم عامة لا تعتمد على المهام اللاحقة"، مما يمكّن من استخراج خصائص بيانات ذات مغزى من مصادر غير منظمة، بغض النظر عن تفاصيل التطبيق.
تقييم مجموعات البيانات المُنظَّمة تلقائيًا
أجرى الباحثون تجارب واسعة باستخدام نماذج رؤية الكمبيوتر المُدَرَّبة بمجموعات بيانات مُنظَّمة عبر التجميع الهرمي، مستخدمين صورًا دون تسميات يدوية. تشير النتائج إلى أن التدريب على مجموعات البيانات المُنظَّمة تلقائيًا يعزز الأداء على المعايير الخاصة بتصنيف الصور، خاصةً للأمثلة غير الموزعة، كما يحسن بشكل كبير أداء الاسترجاع. ويُلاحظ أن النماذج المدربة على هذه المجموعات أدت أداءً مماثلاً للنماذج المدربة على مجموعات البيانات المُنظَّمة يدويًا، والتي تتطلب موارد بشرية كبيرة.
تم تطبيق هذه الخوارزمية بنجاح أيضًا على بيانات النصوص لتدريب نماذج اللغة الكبيرة وصور الأقمار الصناعية لتوقع ارتفاع الغطاء النباتي، مما حقق تحسينات ملحوظة عبر معايير مختلفة.
تظهر تجاربهم بشكل كبير أن النماذج المدربة على مجموعات بيانات متوازنة جيدًا يمكن أن تتنافس مع النماذج الرائدة باستخدام عدد أقل من الأمثلة.
إن إدخال هذه التقنية للتنظيم التلقائي لمجموعات البيانات له تأثيرات عميقة على التعلم الآلي التطبيقي، خصوصًا في الصناعات حيث تكون البيانات المُنظَّمة نادرة. يمكن أن تُقلل هذه الطريقة بشكل كبير من التكاليف المرتبطة بتسميات البيانات والتنظيم للتعلم الذاتي-supervised، مما يمكّن النماذج المدربة جيدًا من التكيف مع مهام التعلم المراقب اللاحقة باستخدام الحد الأدنى من البيانات المصنفة.
علاوة على ذلك، فإن الشركات مثل Meta وGoogle، التي تمتلك كميات هائلة من البيانات الخام غير المعالجة، تستفيد بشكل كبير من هذه التقنية. يؤكد الباحثون على أن "تنظيم مجموعات البيانات تلقائيًا سيكون أكثر أهمية في خطوط التدريب المستقبلية."