الهندسة الثورية للمحوّلات: فتح آفاق نماذج اللغة الكبيرة القوية بدون وحدات معالجة الرسوميات

نماذج اللغة الخالية من ضرب المصفوفات: ثورة في الكفاءة

تُعتبر عمليات ضرب المصفوفات (MatMul) من أكثر العمليات استهلاكًا للموارد في نماذج اللغة الكبيرة (LLMs) التي تعتمد على معمارية المحولات (Transformers). ومع زيادة حجم هذه النماذج، تتصاعد التكاليف المرتبطة بعمليات MatMul بشكل كبير، ما يؤدي إلى زيادة في استهلاك الذاكرة والكمون أثناء التدريب والاستدلال.

طور باحثون من جامعة كاليفورنيا - سانتا كروز، وجامعة سوتشو، وجامعة كاليفورنيا - ديفيس، معمارية مبتكرة تقضي على ضرب المصفوفات في نماذج اللغة مع تحقيق أداء قوي على نطاق واسع.

تقديم نماذج اللغة الخالية من MatMul

في ورقتهم البحثية groundbreaking، يقدم الباحثون نماذج لغة خالية من MatMul تتطابق مع أداء أفضل المحولات ولكنها تتطلب ذاكرة أقل بشكل كبير أثناء الاستدلال.

فهم ضرب المصفوفات في التعلم العميق

يعتبر ضرب المصفوفات أمرًا أساسيًا في التعلم العميق لدمج البيانات مع الأوزان داخل الشبكات العصبية، مما يسهّل تحويل البيانات المدخلة لإنتاج التنبؤات. تتمتع وحدات معالجة الرسوميات (GPUs) بميزة تنفيذ العديد من عمليات MatMul في الوقت نفسه بفضل هيكلها المتوازي، وهو أمر حيوي لتدريب النماذج المعقدة ونشرها بشكل فعال.

رغم هذه الميزة، ومع نمو LLMs لتشمل مئات المليارات من المعلمات، تصبح عمليات MatMul عقبات تتطلب مجموعات ضخمة من GPUs للتدريب والاستدلال. يمكن أن يؤدي الانتقال بعيدًا عن MatMul إلى تحقيق توفير كبير في الذاكرة والحوسبة. ومع ذلك، فإن المحاولات السابقة لاستبدال عمليات MatMul حققت نتائج غير متسقة، وغالبًا ما أدت إلى بطء العمليات بسبب الأداء غير الأمثل على GPUs.

ثورة في العمليات باستخدام الأوزان الثلاثية

يقترح الباحثون بديلاً مثيرًا: استبدال الأوزان التقليدية العائمة بحجم 16 بت في المحولات بأوزان ثلاثية بحجم 3 بت يمكن أن تمثل ثلاث حالات: -1، 0، و+1. يقدمون عمليات إضافية لتعويض MatMul، مما يؤدي إلى تقليل التكاليف الحسابية بشكل كبير. تستخدم نماذجهم "BitLinear layers" التي تعتمد على هذه الأوزان الثلاثية.

يشرح الباحثون: "باستخدام الأوزان المقيدة إلى المجموعة {−1، 0، +1} وتطبيق تقنيات التقريب الإضافية، استبدلنا MatMul بعمليات الجمع والسلب."

تغييرات معمارية مبتكرة

تختلف البنية الأساسية عن المحولات التقليدية، التي تتألف من خلطات الرموز والقنوات. ينتقل الخلط الرمزي، المسؤول عن دمج المعلومات عبر رموز التسلسل باستخدام آليات الانتباه الذاتي، إلى وحدة متكررة خطية خالية من MatMul (MLGRU). تعالج MLGRU الرموز من خلال تحديث الحالات المخفية عبر عمليات ثلاثية بسيطة، متجاوزة عمليات الضرب المصفوفي المكلفة.

بالإضافة إلى ذلك، يستخدم خلط القنوات، الذي يدمج المعلومات عبر قنوات الميزات المختلفة لتمثيل الرمز، وحدة خطية بوابة معدلة (GLU) تتناسب مع الأوزان الثلاثية. تقلل هذه التعديلات من التعقيد الحسابي واستخدام الذاكرة مع الحفاظ على فعالية تكامل الميزات.

يلاحظ الباحثون: "من خلال دمج خلط الرموز MLGRU مع خلط القنوات GLU باستخدام الأوزان الثلاثية، تعتمد بنيتنا فقط على الجمع والضرب العنصري."

تقييم الأداء لنماذج اللغة الخالية من MatMul

يقارن الباحثون نماذجهم الخالية من MatMul مع معمارية Transformer++ المتقدمة، كما هو مستخدم في Llama-2، عبر أحجام نماذج مختلفة. وتشير النتائج إلى أن نموذج اللغة الخالي من MatMul يستخدم موارد حسابية إضافية لتحسين الأداء مقارنة بـ Transformer++.

عند تقييم المهام اللغوية، تفوق نموذج اللغة الخالي من MatMul بحجم 2.7 مليار على نظيره من Transformer++ في معايير مثل ARC-Challenge وOpenbookQA، بينما حقق نتائج مماثلة في مهام أخرى.

يؤكد الباحثون: "تظهر هذه النتائج أن الهياكل الخالية من MatMul يمكن أن تقدم أداءً قويًا بدون تدريب عبر مجموعة متنوعة من المهام اللغوية، بما في ذلك الإجابة على الأسئلة واستدلال الحس السليم."

تظهر الكفاءة في استهلاك الذاكرة والكمون لنماذج اللغة الخالية من MatMul بشكل أكبر مع زيادة أحجام النماذج. على سبيل المثال، يتطلب النموذج بحجم 13 مليار فقط 4.19 جيجابايت من ذاكرة GPU مع كمون يبلغ 695.48 مللي ثانية، بينما يتطلب Transformer++ 48.50 جيجابايت مع كمون يبلغ 3183.10 مللي ثانية.

تنفيذ محسّن وإتجاهات مستقبلية

طور الباحثون تنفيذ GPU محسن وتكوين FPGA مخصص للنماذج اللغوية الخالية من MatMul. مع هذا التحسين، حققوا تسريعًا بنسبة 25.6% في التدريب وتقليلًا يصل إلى 61.0% في استخدام الذاكرة مقارنةً بقاعدة غير محسنة.

يختتم الباحثون بقولهم: "تتجاوز هذه الأعمال تنفيذات البرمجيات فقط للنماذج الخفيفة، مما يوضح أن النماذج اللغوية القابلة للتوسع والفعالة يمكن أن تقلل بشكل فعال من المتطلبات الحسابية واستهلاك الطاقة."

رغم أن القيود كانت قد حدّت من الاختبارات على النماذج التي تتجاوز 100 مليار معلمة، يأمل الباحثون في تشجيع المؤسسات على الاستثمار في النماذج الخفيفة، مما يمهد الطريق لنماذج لغوية أكثر وصولًا مستقلة عن وحدات معالجة الرسوميات عالية الأداء. وقد جعل الباحثون التعليمات البرمجية والنماذج متاحة لمجتمع البحث.

يؤكد الباحثون: "من خلال إعطاء الأولوية لتطوير هياكل خالية من MatMul، سيتجه مستقبل LLMs نحو زيادة الوصول، والكفاءة، والاستدامة."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles