ابتكر باحثون في ETH زيورخ تقنية ثورية تزيد بشكل ملحوظ من كفاءة الشبكات العصبية. من خلال تعديل عملية الاستدلال، تمكنوا من تقليل المتطلبات الحسابية لهذه الشبكات بشكل كبير.
في تجاربهم مع BERT، النموذج الشهير لتحويل اللغة، حقق الباحثون تقليلاً مذهلاً يتجاوز 99% في العمليات الحسابية. يمكن تطبيق هذه الطريقة المتطورة أيضًا على نماذج التحويل التي تشغل نماذج اللغة الكبيرة مثل GPT-3، مما يمهد الطريق لمعالجة لغوية أسرع وأكثر كفاءة.
فهم الشبكات العصبية السريعة
تتكون نماذج التحويل، التي تشكل العمود الفقري لنماذج اللغة الكبيرة، من عدة طبقات تشمل طبقات الانتباه والطبقات التغذوية. تعتبر الطبقات التغذوية، التي تضم جزءًا كبيرًا من معلمات النموذج، كثيفة حسابيًا بسبب الحاجة إلى حساب ناتج كل الخلايا العصبية عبر أبعاد الإدخال.
وجد الباحثون أنه لا حاجة لتنشيط جميع الخلايا العصبية في الطبقات التغذوية لكل إدخال أثناء الاستدلال. قدموا طبقات التغذية السريعة (FFF) كبديل للطبقات التغذوية التقليدية. تستخدم FFF عملية ضرب مصفوفات شرطية (CMM)، وهي عملية رياضية تستبدل الضربات المصفوفية الكثيفة (DMM) في الشبكات التغذوية التقليدية. بينما تتضمن DMM مضاعفة جميع معلمات الإدخال بجميع الخلايا العصبية، تستخدم CMM مجموعة محددة فقط من الخلايا العصبية لكل إدخال، مما يُحسن من معالجة البيانات ويقلل من العبء الحسابي.
FastBERT: ثورة في معالجة اللغة
لتقييم تقنيتهم الجديدة، طور الباحثون FastBERT، وهو نسخة معدلة من نموذج BERT الخاص بـ Google. يزيد FastBERT من الأداء من خلال استبدال الطبقات التغذوية القياسية بطبقات تغذية سريعة، حيث تُنظم الخلايا العصبية في هيكل شجرة ثنائية متوازنة تنشط فرعًا واحدًا فقط بناءً على المدخلات الخاصة.
لتقدير قدرات FastBERT، قام الفريق بضبط نماذج مختلفة على معيار تقييم الفهم اللغوي العام (GLUE)، وهو مجموعة مصممة لتقييم أنظمة فهم اللغة الطبيعية. كانت النتائج مثيرة: حيث قدم FastBERT أداءً مماثلاً لنماذج BERT الأساسية ذات الحجم والتدريب المماثل. حافظت المتغيرات التي تم ضبطها ليوم واحد فقط على وحدة معالجة الرسوميات A6000 على أداء لا يقل عن 96.0% من أداء BERT، ولا سيما أن أفضل متغير تطابق مع أداء BERT باستخدام 0.3% فقط من خلاياه العصبية.
يؤكد الباحثون أن دمج الشبكات التغذوية السريعة في نماذج اللغة الكبيرة يحمل وعدًا هائلًا في تعزيز السرعة. على سبيل المثال، تحتوي كل طبقة تحويل في GPT-3 على 49,152 خلية عصبية؛ مع FFF، يمكن تحسين هذا ليستخدم 16 خلية فقط أثناء الاستدلال، وهو ما يمثل حوالي 0.03% من خلايا GPT-3.
التعامل مع تحديات التحسين
بينما شهدت عملية الضرب الكثيف للمصفوفات تحسينات كبيرة على مر السنين، لا ينطبق ذلك على ضرب المصفوفات الشرطية. لاحظ الباحثون: "إن ضرب المصفوفات الكثيفة هو أكثر العمليات الرياضية تحسينًا في تاريخ الحوسبة." تقدم أطر التعلم العميق الحالية دعمًا محدودًا لـ CMM، بشكل رئيسي من خلال محاكاة عالية المستوى.
لتقدم هذا البحث، طور الفريق تنفيذهم الخاص لعمليات CMM، مما أدى إلى تحسين سرعة الاستدلال بمعدل مذهل يبلغ 78x. يعتقدون أنه مع تحسين الأجهزة وتنفيذ الخوارزميات على مستوى أدنى أفضل، يمكن أن تتجاوز السرعات تحسينًا يصل إلى 300x. سيتناول ذلك بشكل كبير أحد التحديات الملحة في نماذج اللغة: توليد الرموز بشكل أسرع.
الخاتمة
يبرز وعد تسريع نظري بمعدل 341x لنماذج BERT الأساسية الإمكانيات التحويلية لعملهم. يأمل الباحثون في إلهام تطوير مزيد من البدائل التنفيذية العصبية الشرطية ضمن واجهات برمجة الأجهزة. يمثل هذا البحث خطوة حاسمة نحو معالجة القيود الخاصة بالذاكرة والحساب للغات الكبيرة، مما يعزز تطوير أنظمة ذكاء اصطناعي أكثر كفاءة وموثوقية.