مع تزايد حدة المنافسة في مجال الذكاء الاصطناعي التوليدي، قدمت شركة ميتا لمحة عن نموذجها المبتكر متعدد الأنماط "Chameleon". بخلاف النماذج الحالية التي تجمع بين مكونات من أنماط مختلفة، تم تصميم Chameleon بشكل أصلي ليكون متعدد الأنماط.
على الرغم من أن النماذج ليست متاحة للجمهور بعد، إلا أن التجارب الأولية تشير إلى أن Chameleon يتفوق في مهام مثل توصيف الصور والإجابة على الأسئلة المرئية، مع الحفاظ على تنافسه في التحديات التي تقتصر على النصوص فقط.
معمارية Chameleon
تستخدم Chameleon معمارية "الدمج المبكر القائم على الرموز"، وهي تصميم متطور يقوم بمعالجة الصور والنصوص والبرامج وغيرها بشكل متداخل. من خلال تحويل الصور إلى رموز منفصلة، مشابهة لكيفية معالجة نماذج اللغة للكلمات، تستخدم Chameleon مفردات موحدة تدمج بين النصوص ورموز البرمجة ورموز الصور. وهذا يمكّن نفس معمارية المحول من معالجة تسلسلات تحتوي على نصوص وصور بسلاسة.
يشير الباحثون إلى أن أقرب نموذج قابل للمقارنة هو "Google Gemini"، الذي يعتمد أيضاً على نهج الدمج المبكر. ومع ذلك، بينما يعتمد Gemini على مفككات صور منفصلة أثناء التوليد، تعمل Chameleon كنموذج شامل، تعالج وتولد الرموز في نفس الوقت. هذه المساحة الموحدة للرموز تتيح لـ Chameleon إنشاء تسلسلات متداخلة من النصوص والصور دون استخدام مكونات خاصة بنوع معين.
تحديات الدمج المبكر
على الرغم من مزايا الدمج المبكر، فإنه يواجه تحديات كبيرة في تدريب النماذج وتوسيع نطاقها. لمعالجة هذه القضايا، استخدم فريق البحث العديد من التعديلات المعمارية وتقنيات التدريب. تشرح دراستهم تجارب متنوعة وتأثيرها على أداء النموذج.
يخضع Chameleon لعملية تدريب على مرحلتين، مستخدماً مجموعة بيانات تتضمن 4.4 تريليون رمز، تشمل النصوص وزوج من الصور والنصوص وتسلسلات متداخلة. شمل التدريب إصدارين من Chameleon يحتويان على 7 مليارات و34 مليار معلمة، تم تنفيذهما على أكثر من 5 ملايين ساعة من موارد Nvidia A100 80GB GPU.
أداء Chameleon
تكشف النتائج المنشورة في الورقة البحثية عن أداء استثنائي لـ Chameleon في المهام النصية والم multimodal. في المقاييس المتعلقة بالإجابة على الأسئلة المرئية وتوصيف الصور، حقق Chameleon-34B نتائج رائدة، متجاوزاً نماذج مثل Flamingo وIDEFICS وLlava-1.5. يُظهر Chameleon أداءً قويًا مع عدد أقل بكثير من أمثلة التدريب السياقية وأحجام النماذج الأصغر في التقييمات المدربة مسبقًا والمعدلة.
في عالم قد تعاني فيه النماذج متعددة الأنماط في المهام ذات النمط الواحد، يحافظ Chameleon على أداء تنافسي في المقاييس النصية فقط، متماشياً مع نماذج مثل Mixtral 8x7B وGemini-Pro في مهام التفكير السليم وفهم القراءة.
ومن اللافت أن Chameleon يمكّن من التفكير والتوليد المختلط المتقدم، لا سيما في المحفزات التي تتطلب نصوصًا وصورًا متداخلة. وأظهرت التقييمات البشرية أن المستخدمين يفضلون الوثائق متعددة الأنماط التي تم إنشاؤها بواسطة Chameleon.
آفاق مستقبلية
مؤخراً، أطلقت OpenAI وGoogle نماذج جديدة متعددة الأنماط، على الرغم من أن التفاصيل لا تزال ضئيلة. إذا اتبعت ميتا نمط شفاف وأفرجت عن أوزان Chameleon، فقد يكون بديلاً مفتوحاً للنماذج الخاصة.
كما يمهد نهج الدمج المبكر الطريق للبحوث المستقبلية، خاصة مع دمج المزيد من الأنماط. على سبيل المثال، تستكشف الشركات الناشئة في الروبوتات كيفية دمج نماذج اللغة مع أنظمة التحكم في الروبوتات. سيكون من المثير للاهتمام مراقبة الأثر المحتمل للدمج المبكر على نماذج الروبوتات الأساسية.
باختصار، يمثل Chameleon خطوة كبيرة نحو تحقيق نماذج أساسية موحدة قادرة على التفكير المرن وتوليد محتوى متعدد الأنماط.