الهندسة الثورية للمحوّلات: فتح آفاق نماذج اللغة الكبيرة القوية بدون وحدات معالجة الرسوميات

Home أخبار الذكاء الاصطناعي الهندسة الثورية للمحوّلات: فتح آفاق نماذج اللغة الكبيرة القوية بدون وحدات معالجة الرسوميات

Updated on يونيو 13 2024

نماذج اللغة الخالية من ضرب المصفوفات: ثورة في الكفاءة

تُعتبر عمليات ضرب المصفوفات (MatMul) من أكثر العمليات استهلاكًا للموارد في نماذج اللغة الكبيرة (LLMs) التي تعتمد على معمارية المحولات (Transformers). ومع زيادة حجم هذه النماذج، تتصاعد التكاليف المرتبطة بعمليات MatMul بشكل كبير، ما يؤدي إلى زيادة في استهلاك الذاكرة والكمون أثناء التدريب والاستدلال.

طور باحثون من جامعة كاليفورنيا - سانتا كروز، وجامعة سوتشو، وجامعة كاليفورنيا - ديفيس، معمارية مبتكرة تقضي على ضرب المصفوفات في نماذج اللغة مع تحقيق أداء قوي على نطاق واسع.

تقديم نماذج اللغة الخالية من MatMul

في ورقتهم البحثية groundbreaking، يقدم الباحثون نماذج لغة خالية من MatMul تتطابق مع أداء أفضل المحولات ولكنها تتطلب ذاكرة أقل بشكل كبير أثناء الاستدلال.

فهم ضرب المصفوفات في التعلم العميق

يعتبر ضرب المصفوفات أمرًا أساسيًا في التعلم العميق لدمج البيانات مع الأوزان داخل الشبكات العصبية، مما يسهّل تحويل البيانات المدخلة لإنتاج التنبؤات. تتمتع وحدات معالجة الرسوميات (GPUs) بميزة تنفيذ العديد من عمليات MatMul في الوقت نفسه بفضل هيكلها المتوازي، وهو أمر حيوي لتدريب النماذج المعقدة ونشرها بشكل فعال.

رغم هذه الميزة، ومع نمو LLMs لتشمل مئات المليارات من المعلمات، تصبح عمليات MatMul عقبات تتطلب مجموعات ضخمة من GPUs للتدريب والاستدلال. يمكن أن يؤدي الانتقال بعيدًا عن MatMul إلى تحقيق توفير كبير في الذاكرة والحوسبة. ومع ذلك، فإن المحاولات السابقة لاستبدال عمليات MatMul حققت نتائج غير متسقة، وغالبًا ما أدت إلى بطء العمليات بسبب الأداء غير الأمثل على GPUs.

ثورة في العمليات باستخدام الأوزان الثلاثية

يقترح الباحثون بديلاً مثيرًا: استبدال الأوزان التقليدية العائمة بحجم 16 بت في المحولات بأوزان ثلاثية بحجم 3 بت يمكن أن تمثل ثلاث حالات: -1، 0، و+1. يقدمون عمليات إضافية لتعويض MatMul، مما يؤدي إلى تقليل التكاليف الحسابية بشكل كبير. تستخدم نماذجهم "BitLinear layers" التي تعتمد على هذه الأوزان الثلاثية.

يشرح الباحثون: "باستخدام الأوزان المقيدة إلى المجموعة {−1، 0، +1} وتطبيق تقنيات التقريب الإضافية، استبدلنا MatMul بعمليات الجمع والسلب."

تغييرات معمارية مبتكرة

تختلف البنية الأساسية عن المحولات التقليدية، التي تتألف من خلطات الرموز والقنوات. ينتقل الخلط الرمزي، المسؤول عن دمج المعلومات عبر رموز التسلسل باستخدام آليات الانتباه الذاتي، إلى وحدة متكررة خطية خالية من MatMul (MLGRU). تعالج MLGRU الرموز من خلال تحديث الحالات المخفية عبر عمليات ثلاثية بسيطة، متجاوزة عمليات الضرب المصفوفي المكلفة.

بالإضافة إلى ذلك، يستخدم خلط القنوات، الذي يدمج المعلومات عبر قنوات الميزات المختلفة لتمثيل الرمز، وحدة خطية بوابة معدلة (GLU) تتناسب مع الأوزان الثلاثية. تقلل هذه التعديلات من التعقيد الحسابي واستخدام الذاكرة مع الحفاظ على فعالية تكامل الميزات.

يلاحظ الباحثون: "من خلال دمج خلط الرموز MLGRU مع خلط القنوات GLU باستخدام الأوزان الثلاثية، تعتمد بنيتنا فقط على الجمع والضرب العنصري."

تقييم الأداء لنماذج اللغة الخالية من MatMul

يقارن الباحثون نماذجهم الخالية من MatMul مع معمارية Transformer++ المتقدمة، كما هو مستخدم في Llama-2، عبر أحجام نماذج مختلفة. وتشير النتائج إلى أن نموذج اللغة الخالي من MatMul يستخدم موارد حسابية إضافية لتحسين الأداء مقارنة بـ Transformer++.

عند تقييم المهام اللغوية، تفوق نموذج اللغة الخالي من MatMul بحجم 2.7 مليار على نظيره من Transformer++ في معايير مثل ARC-Challenge وOpenbookQA، بينما حقق نتائج مماثلة في مهام أخرى.

يؤكد الباحثون: "تظهر هذه النتائج أن الهياكل الخالية من MatMul يمكن أن تقدم أداءً قويًا بدون تدريب عبر مجموعة متنوعة من المهام اللغوية، بما في ذلك الإجابة على الأسئلة واستدلال الحس السليم."

تظهر الكفاءة في استهلاك الذاكرة والكمون لنماذج اللغة الخالية من MatMul بشكل أكبر مع زيادة أحجام النماذج. على سبيل المثال، يتطلب النموذج بحجم 13 مليار فقط 4.19 جيجابايت من ذاكرة GPU مع كمون يبلغ 695.48 مللي ثانية، بينما يتطلب Transformer++ 48.50 جيجابايت مع كمون يبلغ 3183.10 مللي ثانية.

تنفيذ محسّن وإتجاهات مستقبلية

طور الباحثون تنفيذ GPU محسن وتكوين FPGA مخصص للنماذج اللغوية الخالية من MatMul. مع هذا التحسين، حققوا تسريعًا بنسبة 25.6% في التدريب وتقليلًا يصل إلى 61.0% في استخدام الذاكرة مقارنةً بقاعدة غير محسنة.

يختتم الباحثون بقولهم: "تتجاوز هذه الأعمال تنفيذات البرمجيات فقط للنماذج الخفيفة، مما يوضح أن النماذج اللغوية القابلة للتوسع والفعالة يمكن أن تقلل بشكل فعال من المتطلبات الحسابية واستهلاك الطاقة."

رغم أن القيود كانت قد حدّت من الاختبارات على النماذج التي تتجاوز 100 مليار معلمة، يأمل الباحثون في تشجيع المؤسسات على الاستثمار في النماذج الخفيفة، مما يمهد الطريق لنماذج لغوية أكثر وصولًا مستقلة عن وحدات معالجة الرسوميات عالية الأداء. وقد جعل الباحثون التعليمات البرمجية والنماذج متاحة لمجتمع البحث.

يؤكد الباحثون: "من خلال إعطاء الأولوية لتطوير هياكل خالية من MatMul، سيتجه مستقبل LLMs نحو زيادة الوصول، والكفاءة، والاستدامة."

مهندسون سابقون في Meta يكشفون عن Jace، وكيل ذكاء اصطناعي مستقل

لايف بنش: معيار مفتوح لنماذج اللغة الكبيرة مع بيانات اختبار خالية من التلوث وتقييم موضوعي

Most people like

DETECTING-AI.COM

400.4K

اكتشف أداة قوية مصممة لاكتشاف والإشارة إلى النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي، مما يضمن بقاء محتواك أصيلاً وخالياً من تأثيرات الذكاء الاصطناعي.

كشف محتوى الذكاء الاصطناعي AI Content Detector

Transcope

86.7K

ترانسكوبي هو أداة كتابة متطورة تعتمد على الذكاء الاصطناعي GPT-4، مصممة لمساعدتك في إنشاء محتوى عالي الجودة ومحسّن لمحركات البحث بسهولة. افتح إمكانيات تكنولوجيا الكتابة المتقدمة لتعزيز وجودك على الإنترنت مع ترانسكوبي.

كتابة الذكاء الاصطناعي AI Content Generator

Caktus AI

126.9K

Caktus AI هي منصة مبتكرة مصممة خصيصاً للطلاب، تقدم أدوات ذكاء اصطناعي قوية للكتابة وحل المشكلات والترميز ومهام أكاديمية متنوعة. افتح آفاق إمكاناتك مع ميزات Caktus AI المخصصة لتعزيز التعلم وزيادة الإنتاجية.

الذكاء الاصطناعي AI Education Assistant

Just Think

29.2K

اكتشف مجموعة أدوات الذكاء الاصطناعي المثلى المصممة خصيصًا للمعلمين ورجال الأعمال. هذه المورد القوي يمكّن المستخدمين من استغلال الذكاء الاصطناعي بفعالية، مما يعزز أساليب التدريس ويسهل عمليات الأعمال.

دردشة الذكاء الاصطناعي AI Chatbot

Find AI tools in YBX