تحطّم Llama 3 من Meta AI كل ثلاث ساعات على 16,384 وحدة معالجة رسومات H100: تحليل مشاكل الأداء والحلول المقترحة

ميتا تُدرب بنشاط نموذجها اللغوي "لاما 3" في مجال الذكاء الاصطناعي، لكن عملية التدريب شهدت انقطاعات متكررة. تُظهر دراسة حديثة إحصاءات مذهلة: خلال مرحلة ما قبل التدريب الممتدة على 54 يومًا لهذا النموذج الذي يحتوي على 405 مليار معلمة، واجهت مجموعة مكونة من 16,384 وحدة معالجة رسومية من نوع Nvidia H100 عددًا مدهشًا من 419 فشلًا غير متوقع، بمعدل انقطاع واحد كل ثلاث ساعات.

تشير التقرير إلى أن أكثر من نصف هذه الإخفاقات (58.7%) مرتبطة مباشرة بوحدات معالجة الرسوم والذاكرة عالية النطاق (HBM3). تحديدًا، شكلت أخطاء وحدات معالجة الرسوم، بما في ذلك المشكلات المتعلقة باتصالات NVLink، 30.1%، بينما كانتFailures ذاكرة HBM3 تمثل 17.2%. وعلى النقيض، عانت وحدات المعالجة المركزية من فشليْن فقط خلال فترة التدريب بأكملها، مما يبرز الدور الحاسم لوحدات معالجة الرسوم في الحوسبة عالية الأداء والتحديات التي تواجهها.

على الرغم من هذه الانقطاعات المتكررة، حقق فريق ميتا أكثر من 90% من وقت التدريب الفعال، بفضل أدوات واستراتيجيات الإدارة الفعالة. قاموا بتحسين بدء المهام وعمليات التحقق من النقاط، و诊断 سريع للمشكلات الأداء باستخدام أداة NCCL من PyTorch، التي ساعدت في تحديد وحدات معالجة الرسوم ذات الأداء الضعيف. كما أدرك الفريق العوامل البيئية التي تؤثر على أداء وحدات معالجة الرسوم، مثل تقلبات درجة الحرارة خلال الظهر والضغط الذي تسببه مجموعات وحدات معالجة الرسوم الكبيرة على شبكات الطاقة في مراكز البيانات.

مع استمرار زيادة أحجام نماذج الذكاء الاصطناعي، يتزايد الطلب على الموارد الحسابية بشكل سريع. على سبيل المثال، إذا قامت مبادرة xAI التابعة لميتا بنشر 100,000 وحدة معالجة H100 للتدريب في المستقبل، فقد يرتفع معدل الفشل بشكل كبير، مما يطرح تحديات غير مسبوقة لتدريب الذكاء الاصطناعي.

تعتبر تجارب ميتا تحذيرًا حاسمًا للصناعة، حيث تؤكد على أهمية الاستقرار والموثوقية في الأجهزة أثناء السعي نحو التقدم التكنولوجي. في المستقبل، ستكون تقليل معدلات فشل الأجهزة دون المساس بكفاءة التدريب موضوعًا مهمًا لجميع شركات الذكاء الاصطناعي والمؤسسات البحثية.

تسلط هذه الدراسة الضوء على التحديات المتعلقة بالأجهزة في تدريب نماذج الذكاء الاصطناعي الكبيرة، وتوفر بيانات قيمة لدعم التحسينات والحلول التكنولوجية المستقبلية. مع تطور التكنولوجيا، نتوقع ظهور منصات تدريب ذكاء اصطناعي أكثر استقرارًا وكفاءة، مما يدفع مجال الذكاء الاصطناعي إلى آفاق جديدة.

Most people like

Find AI tools in YBX