أطلقت شركة Mistral AI، النجم الصاعد في مجال الذكاء الاصطناعي، أحدث نماذجها من نوع مزيج الخبراء النادر (SMoE) تحت اسم Mixtral 8x22B، وذلك خلال مؤتمر Google Cloud Next الذي شهد كشف Google عن سلسلة من التطورات في الذكاء الاصطناعي. بدلاً من استخدام الفيديوهات الترويجية التقليدية أو المدونات التي يعتمدها المنافسون، اختارت هذه الشركة الناشئة من باريس طريقة غير تقليدية من خلال مشاركة رابط تورنت على منصة X، مما يتيح للمستخدمين تحميل النموذج واختباره مباشرة.
تعتبر هذه الإصدار الثالث من نماذج Mistral الكبرى في غضون أيام قليلة فقط، بعد إطلاق GPT-4 Turbo مع خاصية الرؤية و Gemini 1.5 Pro. كما قامت شركة ميتا بالكشف عن اطلاق Llama 3 المتوقع الشهر المقبل.
يتضمن ملف التورنت الخاص بـ Mistral أربعة مكونات بإجمالي 262 جيجابايت، بينما لا تزال القدرات التفصيلية لنموذج Mixtral 8x22B غير معلنة، أبدى المتحمسون للذكاء الاصطناعي حماسهم تجاه إمكانياته. ومع ذلك، قد يواجه تشغيل النموذج محليًا بعض التحديات. كما أشار أحد مستخدمي Reddit، "عندما اشتريت جهاز M1 Max Macbook، ظننت أن 32 جيجابايت ستكون أكثر من كافية... لم أتخيل أن اهتمامي بالذكاء الاصطناعي سيجعل من ذلك بعيدًا عن الكفاية".
بعد فترة وجيزة من الإعلان عن Mixtral 8x22B، قامت Mistral بإتاحة النموذج على Hugging Face لمزيد من التدريب والنشر، مؤكدةً أن النموذج المدرب مسبقاً يفتقر إلى آليات الاعتدال. كما قدمت Together AI إمكانية الوصول للمستخدمين للتجربة.
تسعى Mistral من خلال نهج MoE النادر إلى تقديم مزيج قوي من النماذج المتخصصة، حيث يتم تخصيص كل نموذج لمهام معينة لتحقيق أداء أمثل وكفاءة في التكلفة. "في كل طبقة، لكل رمز، تختار شبكة التوجيه اثنين من هؤلاء 'الخبراء' لمعالجة الرمز ودمج نواتجهم بشكل إضافي. هذه الطريقة تعزز عدد معلمات النموذج بينما تدير التكلفة والوقت، حيث يتم تنشيط جزء فقط من المعلمات الإجمالية لكل رمز"، كما توضح Mistral على موقعها الإلكتروني.
في السابق، قدمت الشركة Mixtral 8x7B الذي يحتوي على 46.7 مليار معلمة إجمالية ولكن باستخدام 12.9 مليار فقط لكل رمز، مما يسمح بمعالجة المدخلات وتوليد المخرجات بنفس السرعة والتكلفة كما هو الحال في نموذج بـ 12.9 مليار معلمة. تشير المناقشات على Reddit إلى أن الإصدار الأخير يحتوي على إجمالي 130 مليار معلمة، مع تفعيل 38 مليار معلمة في توليد الرموز، مع افتراض تنشيط خبيرين في وقت واحد.
بينما لا تزال الأداء الفعلي لنموذج Mixtral 8x22B عبر المعايير قيد التقييم، فإن التوقعات مرتفعة. يعتقد المستخدمون أنه سيبني على نجاح Mixtral، الذي تفوق على كل من Llama 2 70B من ميتا وGPT-3.5 من OpenAI عبر العديد من المعايير، بما في ذلك GSM-8K وMMLU، مع تقديم أوقات استدلال أسرع.