مايكروسوفت تطلق فلورنسا-2: نموذج موحد مصمم لمهام الرؤية المتنوعة

اليوم، أطلق فريق Azure AI التابع لشركة مايكروسوفت نموذجًا جديدًا يُدعى Florence-2 على منصة Hugging Face. يُقدم هذا النموذج تحت ترخيص MIT permissive، ويتميز بأدائه العالي في مجموعة متنوعة من المهام المتعلقة بالرؤية واللغة من خلال إطار عمل موحد معتمد على التعليمات. يتوفر النموذج بحجمين: 232 مليون و771 مليون بارامتر، ويظهر إمكانياته في مهام مثل الوصف التلقائي، الكشف عن الأجسام، التثبيت البصري، والتجزئة، حيث يتفوق غالبًا على نماذج الرؤية الكبيرة الأخرى.

على الرغم من أن الأداء الفعلي لنموذج Florence-2 لا يزال بحاجة إلى التقييم، إلا أنه يهدف إلى توفير استراتيجية متكاملة للمؤسسات لتطبيقات الرؤية المختلفة، مما يقلل من الحاجة إلى نماذج محددة للمهمات، والتي غالبًا ما تحد من وظائفها وتحتاج إلى ضبط دقيق كبير.

ما الذي يميز Florence-2؟

تلعب نماذج اللغة الكبيرة حاليًا دورًا هامًا في عمليات المؤسسات من خلال تقديم خدمات مثل التلخيص، وإنشاء نصوص تسويقية، والدعم الفني. لقد كانت مرونتها عبر مجالات متعددة ملحوظة. يثير هذا تساؤلًا لدى الباحثين: هل يمكن لنماذج الرؤية، المصممة عادةً لمهام محددة، أن تحقق مرونة مماثلة؟

تعتبر المهام البصرية أكثر تعقيدًا من معالجة اللغة الطبيعية (NLP) المعتمدة على النصوص، حيث تتطلب قدرات إدراكية متطورة. يجب أن يفهم النموذج الشامل البيانات المكانية على مقاييس مختلفة، بدءًا من المفاهيم العامة مثل مواقع الأجسام، وصولًا إلى التفاصيل الدقيقة للبكسلات والتسميات عالية المستوى.

حددت مايكروسوفت تحديين رئيسيين في إنشاء نموذج رؤية موحد: نقص مجموعات البيانات البصرية الم Annotated بشكل واسع والحاجة إلى إطار عمل واحد للتدريب المسبق يمكنه دمج التسلسل الهرمي المكاني والدقة الدلالية.

للتغلب على هذه التحديات، طورت مايكروسوفت مجموعة بيانات بصرية تُدعى FLD-5B، والتي تضم 5.4 مليار تعليق لـ 126 مليون صورة، تتراوح التفاصيل فيها من الأوصاف العامة إلى المناطق المحددة للأجسام. قامت هذه المجموعة بتدريب Florence-2، الذي يستخدم بنية تسلسلية تجمع بين مشفر الصور ومشفّر-مُفكّك متعدد الأنماط. ويتيح هذا التصميم لـ Florence-2 إدارة مجموعة متنوعة من المهام البصرية دون الحاجة إلى تغييرات هيكلية محددة.

“تم توحيد جميع التعليقات في مجموعة بيانات FLD-5B إلى مخرجات نصية، مما يتيح نهج تعلم متعدد المهام مع تحسين متسق من خلال دالة خسارة موحدة”، لاحظ الباحثون في ورقتهم. “والنتيجة هي نموذج مرجعي للرؤية قادر على التعامل مع مهام متعددة ضمن إطار عمل واحد وبإعدادات متسقة من المعلمات. يتم تفعيل المهام من خلال التعليمات النصية، على غرار نماذج اللغة الكبيرة.”

أداء يتجاوز النماذج الأكبر

يؤدي Florence-2 مجموعة من المهام مثل الكشف عن الأجسام، والوصف التلقائي، والتثبيت البصري، والإجابة على الأسئلة البصرية بفاعلية عندما يُزود بإدخالات من النصوص والصور. ومن الجدير بالذكر أنه يحقق نتائج مقارنة أو أفضل من العديد من النماذج الكبرى الأخرى.

على سبيل المثال، في اختبارات الوصف التلقائي بدون تدريب على مجموعة بيانات COCO، تفوقت كل من نسختي 232M و771M من Florence-2 على نموذج Flamingo الخاص بشركة DeepMind، الذي يحتوي على 80 مليار بارامتر، حيث حصلت على الدرجات 133 و135.6 على التوالي. كما تفوقت على نموذج Kosmos-2 الخاص بمايكروسوفت، الذي يتميز بالتثبيت البصري.

عند ضبطه بدقة باستخدام بيانات معلنة بشكل عام، يتنافس Florence-2 بشكل وثيق مع النماذج الكبرى المتخصصة في مهام مثل الإجابة على الأسئلة البصرية.

“تعزز الهيكلية المدربة مسبقًا لـ Florence-2 الأداء على المهام اللاحقة مثل الكشف عن الأجسام في COCO والتجزئة بالحالات، وتجزيء المعاني في ADE20K، متجاوزةً كل من النماذج المراقبة وغير المراقبة”، أشار الباحثون. “مقارنةً بالنماذج المدربة مسبقًا على ImageNet، فإن نموذجنا يعزز كفاءة التدريب بمقدار 4 أضعاف ويحسن الأداء بشكل كبير بمقدار 6.9 و5.5 و5.9 نقاط على مجموعات بيانات COCO وADE20K.”

حاليًا، تتوفر كل من النسخ المدربة مسبقًا والمضبوطة بدقة من Florence-2 (232M و771M) على Hugging Face تحت ترخيص MIT، مما يسمح بالاستخدام التجاري والخاص دون قيود. سيكون من المثير للاهتمام أن نرى كيف سيستخدم المطورون Florence-2 للقضاء على الحاجة إلى نماذج رؤية منفصلة لمهام مختلفة. يمكن أن تسهم هذه النماذج المدمجة، غير المرتبطة بمهمة معينة، في تسريع عملية التطوير وتقليل تكاليف الحوسبة بشكل كبير.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles