أظهرت دراسة حديثة أجرتها شركة Meta أن مجموعة من 16,384 بطاقة رسومية NVIDIA H100، المستخدمة في تدريب نموذج LLaMA 3 الذي يحتوي على 40.5 مليار معلمة، واجهت 419 فشلًا غير متوقع على مدار 54 يومًا، بمتوسط فشل كل ثلاث ساعات. أكثر من نصف هذه الأعطال كانت ناتجة عن مشكلات في بطاقات الرسوم وذاكرة الوصول العشوائي عالية النطاق (HBM3).
تشير المهام الكبيرة والمتزامنة إلى أن فشل بطاقة رسومية واحدة يمكن أن يعطل عملية التدريب بالكامل، مما يستدعي إعادة التشغيل. على الرغم من هذا التحدي، حافظ فريق Meta على أكثر من 90% من وقت التدريب الفعال. خلال فترة التدريب المسبق التي دامت 54 يومًا، سجل الفريق 466 انقطاعًا إجمالياً، شمل 47 انقطاعًا مخططًا و419 انقطاعًا غير متوقع. كانت الانقطاعات المخططة ناتجة أساسًا عن الصيانة التلقائية، بينما كانت الأعطال غير المتوقعة ناتجة في الغالب عن مشكلات في الأجهزة. ومن المثير للاهتمام أن المشكلات المتعلقة بالبطاقات الرسومية شكلت 58.7% من هذه الانقطاعات غير المتوقعة.
من بين 419 فشلًا غير متوقع، كان هناك 148 (30.1%) ناتجًا عن مشكلات متنوعة في البطاقات الرسومية، بما في ذلك أعطال NVLink، بينما كانت 72 (17.2%) نتيجة أعطال في ذاكرة HBM3 الخاصة بالبطاقة. ومن اللافت أن هناك حالتي فشل فقط لوحدة المعالجة المركزية خلال فترة الـ 54 يومًا. بالإضافة إلى ذلك، تمسّ 41.3% من الانقطاعات غير المتوقعة مجموعة من الأخطاء البرمجية، ومشكلات كابلات الشبكة، ومشاكل مع محولات الشبكة.
لزيادة الكفاءة، طور فريق Meta العديد من الأدوات واستراتيجيات التحسين، والتي تشمل تقليل أوقات بدء المهام ونقاط التحقق، واستخدام أدوات تحليل الأداء في PyTorch لتشخيص المشكلات، وتحديد البطاقات الرسومية ذات الأداء المنخفض. وركز الفريق أيضًا على تأثير العوامل البيئية على أداء البطاقة الرسومية، مثل تقلبات درجات الحرارة خلال فترة الظهيرة وضغوط تشغيل العديد من البطاقات على شبكة الطاقة في مركز البيانات.
مع استمرار زيادة معلمات نماذج الذكاء الاصطناعي، تزداد أيضًا الموارد الحاسوبية المطلوبة. على سبيل المثال، قد يؤدي التخطيط لإنشاء مجموعة من 100,000 بطاقة H100 من قبل xAI إلى زيادة معدلات الفشل بشكل كبير، مما يقدم تحديات أكبر لمشاريع تدريب الذكاء الاصطناعي المستقبلية.