تكرار الفشل في تدريب Llama 3 Meta: هل تؤثر وحدات معالجة الرسوميات من NVIDIA على الأداء؟

نشر "ميتا" مؤخرًا تقريرًا بحثيًا شاملاً يوضح التحديات الكبيرة التي واجهت تدريب نموذج "Llama 3"، الذي يتكون من 405 مليار معلمة. تم التدريب على مجموعة مكونة من 16,384 وحدة معالجة رسومات (GPU) من نوع "Nvidia H100" على مدى 54 يومًا، خلال هذه الفترة، شهد النظام 419 فشلًا غير متوقع، بمعدل فشل واحد تقريبًا كل ثلاث ساعات. ومن الجدير بالذكر أن أكثر من نصف هذه الأعطال كانت مرتبطة بوحدات معالجة الرسومات وذاكرة النطاق الترددي العالي (HBM3).

أدى إصدار نموذج "Llama 3.1" مفتوح المصدر من "ميتا" إلى إثارة اهتمام كبير، حيث تساءل المستخدمون عن جوانب متعددة مثل مصادر بيانات التدريب، ونسبة البيانات الاصطناعية، وغياب بنية خلط الخبراء (MoE)، وعمليات التعلم التعزيزي من ردود الفعل البشرية (RLHF)، وطرق تقييم النموذج. هناك أيضًا توقعات كبيرة لمستقبل نموذج "Llama"، خصوصًا بخصوص "Llama 4" والتقدم في تقنيات الوكلاء.

عند تحديد حجم معلمات النموذج، أخذت "ميتا" في الاعتبار عدة عوامل مثل قوانين القياس، مدة التدريب، وحدود الأجهزة. يحدد البحث نهجًا متوازنًا يحسن كفاءة الاستدلال ضمن القيود المفروضة بواسطة قوانين القياس وإجمالي رموز التدريب. مع عدد معلمات يصل إلى 405 مليار، يظهر "Llama 3.1" كمتنافس قوي، يمكن مقارنته بـ"GPT-4". رغم أن الهدف النهائي لم يتحقق بعد، يتم إحراز تقدم، ومن المتوقع أن تتوسع النماذج المستقبلية أكثر.

تؤكد ورقة "Chinchilla" على أهمية العدد الإجمالي لرموز بيانات التدريب، تشدد على أن النسبة المثلى بين معلمات النموذج ورموز التدريب أمر حاسم تحت قيود القدرة الحاسوبية المحدودة. للحصول على ميزة في كفاءة الاستدلال، اختارت "ميتا" زيادة كل من كمية رموز التدريب ومدة التدريب، مما عزز الأداء لقبول أوسع في مجتمع المصادر المفتوحة.

رغم التشابه الهيكلي مع "Llama 2"، تحقق "Llama 3" تحسينات كبيرة في حجم البيانات وجودتها، حيث زاد حجم مجموعة البيانات من 2 تريليون إلى 15 تريليون رمز. يركز الاتجاه الحالي في تطوير النماذج على تحسين درجات المؤشرات عبر التحسينات بعد التدريب، رغم أن تقييم النموذج لا يزال تحديًا بحثيًا لم يتم حله. يمثل خطر الإفراط في التكييف مصدر قلق، مما قد يعيق نقل مكاسب الأداء عبر قدرات مشابهة. بدأ التدريب على نموذج "Llama 4" في يونيو، مع تركيز محتمل على تقنيات الوكيل.

نُسبت الفشل المتكرر أثناء تدريب "Llama 3" إلى حجمه الضخم والتزامن العالي، حيث يمكن لعطل واحد في GPU أن يعطل العملية التدريبية بالكامل. من بين 419 فشلًا غير متوقع، كانت حوالي 58.7% مرتبطة بوحدات معالجة الرسومات، بما في ذلك مشكلات متعددة في NVLink. نظرًا لأن وحدات معالجة الرسومات "H100" من "Nvidia" تعمل تحت أحمال ثقيلة، ليس من المستغرب أن تتطلب ثلاث حالات فقط تدخلًا يدويًا، بينما تم حل القضايا المتبقية تلقائيًا.

لزيادة فعالية وقت التدريب، نفذ فريق "Llama 3" صيانة آلية للعنقود، مما يضمن استغلال أكثر من 90% من وقت التدريب بكفاءة. طورت "ميتا" عدة أدوات واستراتيجيات تحسين، مثل تقليل أوقات بدء المهام وأوقات نقاط التحقق، واستخدام مسجل الرحلات NCCL المدمج في PyTorch، وتحديد وحدات معالجة الرسومات المتخلفة. لعبت NCCLX دورًا حاسمًا في الكشف عن الأخطاء وتحديد مواقعها، خاصة فيما يتعلق بمشكلات NVLink وRoCE.

أثناء التدريب، شكلت تقلبات استهلاك الطاقة من آلاف وحدات معالجة الرسومات تحديات كبيرة لمتطلبات الطاقة في مركز البيانات. يجب على "ميتا" التأكد من أن مراكز بياناتها يمكن أن تدعم "Llama 3" وأي نماذج مستقبلية أكبر مع توافر إمدادات كهربائية كافية. أثرت العوامل البيئية أيضًا على أداء التدريب؛ على سبيل المثال، أدت تقلبات درجة الحرارة أثناء تدريب "Llama 3" إلى تعديلات ديناميكية على الجهد والتردد في وحدات معالجة الرسومات، مما تسبب في تقلبات طفيفة في معدل الإنتاج.

مع متوسط ​​7.76 فشل كل 24 ساعة عبر 16,384 وحدة معالجة رسومات "H100"، قد يواجه supercomputer "xAI Memphis" - المجهز بـ100,000 وحدة معالجة "H100" - معدل فشل أعلى. مع استمرار ارتفاع أعداد معلمات نماذج الذكاء الاصطناعي، يتوسع الطلب على موارد الحوسبة بشكل متناسب. على الرغم من هذه التحديات، أظهرت "ميتا" قدرة قوية على إدارة الفشل وتعزيز الكفاءة في التدريب على الذكاء الاصطناعي على نطاق واسع، مما يضع أساسًا قويًا لتدريب نماذج أكبر في المستقبل.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles