نموذج AI2 الجديد الفعّال من حيث التكلفة: حلول مفتوحة وقوية للجميع

معهد ألين للذكاء الاصطناعي (AI2)، بالتعاون مع Contextual AI، أطلق نموذج لغة كبير مفتوح المصدر يدعى OLMoE. يهدف هذا النموذج إلى تحقيق توازن بين الأداء القوي والكفاءة من حيث التكلفة.

يتميز OLMoE بعمارة نادرة من مجموعة خبراء (MoE)، تضم 7 مليارات معلمة ولكنها تستخدم مليار واحدة فقط لكل رمز إدخال. يأتي النموذج في نسختين: OLMoE-1B-7B للاستخدام العام وOLMoE-1B-7B-Instruct لضبط التعليمات.

على عكس العديد من نماذج MoE الأخرى، فإن OLMoE مفتوح المصدر تمامًا. يبرز AI2 التحديات المتعلقة بالوصول إلى نماذج MoE الأخرى، حيث تفتقر غالبًا إلى الشفافية فيما يتعلق ببيانات التدريب أو الشيفرات أو طرق البناء. وأشار AI2 في دراستهم إلى أن "معظم نماذج MoE مغلقة المصدر وتوفر معلومات محدودة حول بيانات التدريب أو المنهجيات، مما يعيق تطوير نماذج MoE مفتوحة المصدر فعالة من حيث التكلفة يمكنها منافسة النماذج المغلقة المصدر." هذا النقص في الوصول يمثل عائقًا كبيرًا للباحثين والأكاديميين.

لاحظ ناثان لامبرت، عالم أبحاث في AI2، على X (معروف سابقًا بتويتر) أن OLMoE يمكن أن يدعم تطوير السياسات، كونه أداة أساسية مع توفر عناقيد H100 الأكاديمية. وأكد التزام AI2 بإصدار نماذج مفتوحة المصدر تنافسية، قائلاً: "لقد حسنا بنيتنا التحتية وبياناتنا دون تغيير أهدافنا الأساسية. هذا النموذج هو حقًا من الطراز الأول، وليس فقط الأفضل في عدد قليل من التقييمات."

بناء OLMoE

خلال تطوير OLMoE، اعتمدت AI2 نهج توجيه دقيق باستخدام 64 خبيرًا صغيرًا، مع تفعيل ثمانية فقط في أي وقت. أسفرت هذه التكوينات عن أداء Comparable للنماذج الأخرى مع تقليل كبير في تكاليف الاستدلال ومتطلبات الذاكرة.

يعتمد OLMoE على نموذج AI2 السابق المفتوح المصدر، OLMO 1.7-7B، الذي دعم نافذة سياق بواقع 4,096 رمزًا، مستخدمًا مجموعة بيانات تدريب تعرف باسم Dolma 1.7. ولتدريبه، اعتمد OLMoE على مجموعة بيانات متنوعة تضم مجموعات فرعية من Common Crawl وDolma CC وRefined Web وStarCoder وC4 وStack Exchange وOpenWebMath وProject Gutenberg وWikipedia.

يدعي AI2 أن OLMoE "يتفوق على جميع النماذج الموجودة مع معلمات نشطة مماثلة، متجاوزًا النماذج الأكبر مثل Llama2-13B-Chat وDeepSeekMoE-16B." تشير نتائج القياس إلى أن OLMoE-1B-7B يتنافس بشكل وثيق مع النماذج التي تضم 7 مليارات معلمة أو أكثر، مثل Mistral-7B وLlama 3.1-B وGemma 2. في الاختبارات ضد نماذج 1 مليار معلمة، تفوق OLMoE-1B-7B بشكل ملحوظ على نماذج مفتوحة المصدر الأخرى، بما في ذلك Pythia وTinyLlama وحتى OLMO الخاص بـ AI2.

أهمية نماذج MoE مفتوحة المصدر

يتضمن هدف AI2 تعزيز الوصول إلى نماذج ذكاء اصطناعي مفتوحة المصدر تمامًا، خاصة في ظل ارتفاع شعبية بنية MoE. يتجه العديد من المطورين إلى أنظمة MoE، كما يتضح في Mixtral 8x22B من Mistral وGrok من X.ai، مع تكهنات حول الاستخدام المحتمل لـ MoE في GPT-4. ومع ذلك، يشير AI2 وContextual AI إلى أن العديد من نماذج الذكاء الاصطناعي الحالية تفتقر إلى الشفافية الشاملة بشأن بيانات تدريبها وقواعد أكوادها.

يشدد AI2 على ضرورة الانفتاح في نماذج MoE، والتي تقدم تحديات تصميم فريدة، مثل تحديد نسبة المعلمات الكلية إلى النشطة، واختيار بين العديد من الخبراء الصغار أو عدد أقل من الخبراء الكبار، ومشاركة الخبراء، واختيار خوارزميات التوجيه المناسبة.

علاوة على ذلك، تقوم Open Source Initiative بمعالجة ما يشكل الانفتاح لنماذج الذكاء الاصطناعي، مما يبرز أهمية الشفافية في تقدم هذا المجال.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles