ميتا تتبنى بنية المحولات مع إطلاق نموذج ميغالودون للغة.

نموذج جديد للتعلم الآلي طوره باحثون في ميتا وجامعة كاليفورنيا الجنوبية يعالج التحديات الرئيسية المرتبطة بهندسة المحولات، التي كانت لها دور محوري في تقدم نماذج اللغة الكبيرة (LLMs). النموذج، الذي يحمل اسم "ميغالودون"، يوسع النافذة السياقية إلى ملايين الرموز مع تقليل استهلاك الذاكرة. تشير التجارب إلى أن "ميغالودون" يتفوق على النماذج المقارنة من المحولات في التعامل مع النصوص الكبيرة، مما يجعله مرشحًا محتملاً كخليفة لهندسة المحولات.

فهم النوافذ السياقية

تشير "النافذة السياقية" إلى عدد الرموز التي يمكن للنموذج معالجتها في وقت واحد. تزيد النافذة السياقية الأوسع من قدرة LLM على المشاركة في محادثات أطول، وتحليل وثائق أكبر، وتحسين التعلم في السياق. ومع ذلك، فإن زيادة النافذة السياقية للمحول تتطلب تكلفة حسابية كبيرة. تعمل المحولات بتعقيد "ربعاني"، مما يعني أن مضاعفة حجم الإدخال يؤدي إلى زيادة أربعة أضعاف في كل من الذاكرة ووقت الحوسبة المطلوب.

الابتكارات الرئيسية في "ميغالودون"

يستفيد "ميغالودون" من تقنية "انتباة مزود بمتوسط متحرك" (MEGA) التي تم تقديمها في عام 2022، والتي تحسن آلية الانتباه وتقلل بشكل كبير من تعقيد النموذج. يمكن ذلك LLM من التعامل مع مدخلات أطول دون مخاطر كبيرة للذاكرة. تضم MEGA متوسطًا متحركًا أسيًا (EMA) لتحقيق توازن بين أهمية العلاقات الرمزية القريبة والبعيدة، مما يضمن الترابط مع توسع السياق.

البحث والتدريب

قام الباحثون بتدريب نسخة من "ميغالودون" تحتوي على 7 مليارات معلمة على 2 تريليون رمز، وقاموا بمقارنتها مع نماذج Llama-2-7B و13B. أظهرت النتائج أن "ميغالودون-7B" يتفوق على أفضل نماذج المحولات المستخدمة في تدريب Llama-2-7B من حيث التعقيد التدريبي ومهام متعددة. يحقق أداء متساويًا في بعض الأحيان مع Llama-2-13B.

اتجاهات مستقبلية

بينما يحافظ "ميغالودون" على نافذة سياقية تبلغ 4000 رمز بسرعة منخفضة قليلاً مقارنة بـ Llama-2، فإنه يحقق أداءً كبيرًا مع طول سياقي يصل إلى 32,000 رمز بفضل الكفاءة الحسابية المحسّنة. كما أظهرت النتائج التجريبية المبكرة فعالية "ميغالودون" في نمذجة تسلسلات بأطوال غير محدودة.

الهيمنة المستمرة للمحولات

على الرغم من الاستكشاف المستمر للهندسات البديلة مثل Mamba والشبكات العصبية السائلة، تظل المحولات الهيكل الرائد لنماذج اللغة. تستمر ميتا في الابتكار مع نماذج مثل "ميغالودون" بينما تعزز في الوقت نفسه مجموعتها من المحولات، بما في ذلك الإصدار الأخير من "Llama-3".

التحديات المستقبلية

تشكل تكييف الهياكل الجديدة لتتناسب مع نظام أدوات مكتبة المحولات تحديًا. كما يعمل الباحثون على تعديل هيكل المحول لتخفيف متطلباته الحسابية، مثل "انتباة إنفيني" من جوجل التي تهدف لدعم نوافذ سياقية غير محدودة دون زيادة احتياجات الذاكرة.

مع تطور أبحاث الذكاء الاصطناعي بسرعة، من الضروري الاعتراف بأن المشهد ديناميكي. عندما تم تقديم المحول في عام 2017، لم يتوقع الكثيرون تأثيره العميق، وقد تتجاوز النماذج المستقبلية المحول في قدراتها.

Most people like

Find AI tools in YBX