أطلق معهد آلن للذكاء الاصطناعي (Ai2) رسميًا مولمو، مجموعة من نماذج الذكاء الاصطناعي متعددة الأنماط مفتوحة المصدر، التي تتفوق على أفضل المنافسين المملكين، بما في ذلك GPT-4o من OpenAI وClaude 3.5 Sonnet من Anthropic وGemini 1.5 من Google، وفقًا لعدة معايير خارجية.
تتمتع مولمو بقدرة تحليل الصور والملفات، مماثلة لنماذج الأساس الرائدة. وتدعي Ai2 أن مولمو يستخدم "بيانات أقل بعشرة أضعاف" مقارنة بنظرائه المملكين، بفضل أساليب التدريب المبتكرة الموضحة في تقرير فني نشر حديثًا.
كما شاركت Ai2 فيديو توضيحي على يوتيوب يوضح كيفية تشغيل مولمو على الهواتف الذكية لتحليل المشاهد الحية بكفاءة. يمكن للمستخدمين ببساطة التقاط صورة لبدء المعالجة الفورية؛ تشمل الأمثلة عد الأشخاص، التعرف على عناصر القائمة النباتية، تفسير المنشورات، تمييز فرق الموسيقى الإلكترونية، وتحويل الملاحظات المكتوبة بخط اليد إلى جداول منظمة.
تظهر هذه الإصدارات التزام Ai2 بتعزيز البحث المفتوح من خلال توفير نماذج عالية الأداء مع أوزان وبيانات متاحة للجمهور وللشركات التي تسعى إلى حلول مخصصة. ويأتي مولمو بعد تقديم Ai2 لنموذج OLMoE الذي يركز على التكلفة.
متغيرات النماذج والأداء
تشمل مجموعة مولمو أربعة نماذج رئيسية بأحجام ومعايير مختلفة:
- مولمو-72B: النموذج الرائد بـ 72 مليار معلمة.
- مولمو-7B-D: نموذج عرض مشتق من نموذج Qwen2-7B من Alibaba.
- مولمو-7B-O: مستند إلى OLMo-7B من Ai2.
- مولموE-1B: نموذج يركز على الكفاءة، يقترب من أداء GPT-4V في المعايير الأكاديمية.
تظهر هذه النماذج قدرات رائعة عبر معايير خارجية، متفوقة باستمرار على العديد من البدائل المملوكة. جميع النماذج متاحة بموجب تراخيص مرنة من نوع Apache 2.0، مما يتيح بحثًا واستخدامًا تجاريًا واسعًا.
يبرز مولمو-72B في التقييمات الأكاديمية، محققًا أعلى الدرجات في 11 معيارًا رئيسيًا ويحتل المرتبة الثانية من حيث تفضيل المستخدمين، خلف GPT-4o.
البنية المتقدمة والتدريب
تم تصميم بنية مولمو لتحقيق كفاءة وأداء مثاليين، حيث يستخدم كل نموذج نموذج OpenAI ViT-L/14 336px CLIP كمشفّر بصري، لتحويل الصور متعددة المقاييس إلى رموز بصرية. تتم معالجة هذه الرموز من خلال موصل متعدد الطبقات (MLP) قبل دمجها في نموذج اللغة.
يتضمن بروتوكول التدريب مرحلتين أساسيتين:
- التدريب الأولي متعدد الأنماط: يتم تدريب النماذج على إنتاج عناوين بناءً على أوصاف الصور التفصيلية المقدمة من قبل المُعَنِّبين البشر.
- التعديل الإشرافي: يتم تعديل النماذج باستخدام مجموعة بيانات متنوعة تشمل المعايير الأكاديمية ومجموعات البيانات الجديدة.
الأداء وفق المعايير
تظهر نماذج مولمو نتائج متميزة عبر معايير متنوعة، مع تفوق ملحوظ على النماذج المملوكة. على سبيل المثال، سجل مولمو-72B 96.3 في DocVQA و85.5 في TextVQA، متفوقًا على Gemini 1.5 Pro وClaude 3.5 Sonnet.
الوصول المفتوح والتطورات المستقبلية
قدمت Ai2 هذه النماذج ومجموعات البيانات بشكل مجاني على مساحة Hugging Face الخاصة بها، مما يضمن توافقها مع الأطر الشائعة مثل Transformers. يهدف هذا إلى تعزيز الابتكار والتعاون ضمن مجتمع الذكاء الاصطناعي.
خلال الأشهر المقبلة، تخطط Ai2 لإصدار نماذج إضافية، أكواد تدريب، وتقرير فني موسع، مما يعزز الموارد المتاحة للباحثين. يتوفر عرض تجريبي عام ونقاط تفتيش للنموذج الآن على الصفحة الرسمية لمولمو.