تشتهر نماذج اللغة الكبيرة مثل ChatGPT وLlama-2 بمتطلبات الذاكرة الحاسوبية الواسعة التي تجعل تشغيلها مكلفًا. يمكن أن يؤدي تقليص حتى جزء صغير من حجمها إلى تحقيق وفورات كبيرة في التكاليف.
لمواجهة هذه التحديات، قدم الباحثون في ETH زيورخ إصدارًا مبتكرًا من المحول، وهو هيكل تعلم عميق يشكل أساس نماذج اللغة. هذا التصميم الجديد يقلل بشكل كبير من حجم المحول مع الحفاظ على الدقة وزيادة سرعة الاستدلال، مما يُظهر نهجًا واعدًا لإنشاء نماذج لغة أكثر كفاءة.
فهم كتل المحول
تعتمد نماذج اللغة على كتل المحول، وهي وحدات متجانسة مصممة لمعالجة البيانات التسلسلية، مثل الفقرات النصية. تتكون كتلة المحول التقليدية من مكونين رئيسيين: آلية الانتباه والشبكة العصبية متعددة الطبقات (MLP). تبرز آلية الانتباه بشكل انتقائي أجزاء من بيانات الإدخال (مثل الكلمات في جملة)، مما يعكس سياقها وأهميتها بالنسبة لبعضها. وهذه القابلية تساعد النموذج على فهم علاقات الكلمات حتى عندما تكون بعيدة في النص.
بعد آلية الانتباه، تقوم الشبكة العصبية MLP، وهي شبكة عصبية أصغر، بمزيد من تحسين المعلومات المميزة، وتحويلها إلى تمثيل أكثر تعقيدًا يعكس العلاقات المعقدة. تعزز المكونات الإضافية مثل الاتصالات المتبقية وطبقات التطبيع التعلم وتساعد في التغلب على التحديات الشائعة في الشبكات العصبية العميقة. كلما تعززت كتل المحول لتشكيل نموذج لغة، تزداد قدرتها على التعرف على العلاقات المعقدة، مما يمكنها من أداء المهام المتقدمة التي تنفذها نماذج اللغة الحديثة. ورغم تأثيرها الثوري، فإن التصميم الأساسي لكتلة المحول قد ظل إلى حد كبير دون تغيير منذ بدايته.
تحسين كفاءة المحول
وفقًا للباحثين في ETH زيورخ، "نظرًا للتكاليف الباهظة لتدريب وتطبيق نماذج المحول الكبيرة اليوم، فإن أي مكاسب في الكفاءة في عمليات التدريب والاستدلال لهيكل المحول تمثل وفورات محتملة كبيرة". يجادلون بأن تبسيط كتلة المحول عن طريق إزالة المكونات غير الأساسية يقلل من عدد المعاملات ويعزز من قدرة النموذج على المعالجة.
أظهرت تجاربهم أن تبسيط كتلة المحول لا يضر بسرعة التدريب أو الأداء. تستخدم نماذج المحول التقليدية عدة رؤوس انتباه، لكل منها مجموعة خاصة من المعاملات الرئيسية (K) والاستفسارات (Q) والقيم (V)، والتي معًا تسهل رسم علاقات الرموز المدخلة. وجد الباحثون أن إزالة معامل V وطبقة الإسقاط المرتبطة بها لم تُضعف الفعالية. بالإضافة إلى ذلك، أزالوا الاتصالات المتجاوزة، التي تمنع عادةً مشكلة "تلاشي gradients" التي تعيق التدريب في الشبكات العميقة.
تصميم كتلة المحول الجديدة
تُعالج كتلة المحول المعاد تصميمها رؤوس الانتباه والشبكة العصبية MLP بشكل متزامن، متخليًا عن المعالجة المتسلسلة التقليدية. لموازنة تقليص المعاملات، قام الباحثون بتعديل معاملات أخرى غير قابلة للتعلم، ونسقوا طرق التدريب الخاصة بهم، وأجروا تعديلات هيكلية. تحفظ هذه الابتكارات بشكل جماعي على قدرات النموذج التعليمية رغم هيكله الأكثر رشاقة.
اختبار كتلة المحول المحسّنة
قيم فريق ETH زيورخ كتلتهم المدمجة عبر أعماق مختلفة لنموذج اللغة. وقد حققوا تخفيضًا ملحوظًا في حجم المحول التقليدي بنسبة حوالي 16٪ دون التضحية بالدقة، مع ضمان أوقات استدلال أسرع. على سبيل المثال، يمكن أن يوفر تطبيق هذه الهيئة على نموذج كبير مثل GPT-3، الذي يحتوي على 175 مليار معلمة، حوالي 50 جيجابايت من الذاكرة.
"نماذجنا المبسطة لا تسرع فقط من عملية التدريب ولكنها تستغل أيضًا القدرة الإضافية التي يوفرها العمق الأكبر"، كما أشار الباحثون. بينما أظهرت هذه التقنية فعاليتها على نطاق أصغر، يبقى استكشاف تطبيقها على نماذج أكبر. ويمكن أن تُعزز الاحتمالات المتعلقة بالتحسينات المستقبلية، مثل تخصيص معالجات الذكاء الاصطناعي لهذا الهيكل المبسط، تأثيرها بشكل كبير.
خلص الباحثون إلى أنه "نعتقد أن عملنا يمكن أن يؤدي إلى اعتماد هياكل أبسط في الممارسة العملية، مما يسد الفجوة بين النظرية والتطبيق في التعلم العميق ويقلل من التكاليف المرتبطة بنماذج المحول الكبيرة".