تحطّم Llama 3 من Meta AI كل ثلاث ساعات على 16,384 وحدة معالجة رسومات H100: تحليل مشاكل الأداء والحلول المقترحة

Home الأجهزة تحطّم Llama 3 من Meta AI كل ثلاث ساعات على 16,384 وحدة معالجة رسومات H100: تحليل مشاكل الأداء والحلول المقترحة

Updated on يوليو 29 2024

ميتا تُدرب بنشاط نموذجها اللغوي "لاما 3" في مجال الذكاء الاصطناعي، لكن عملية التدريب شهدت انقطاعات متكررة. تُظهر دراسة حديثة إحصاءات مذهلة: خلال مرحلة ما قبل التدريب الممتدة على 54 يومًا لهذا النموذج الذي يحتوي على 405 مليار معلمة، واجهت مجموعة مكونة من 16,384 وحدة معالجة رسومية من نوع Nvidia H100 عددًا مدهشًا من 419 فشلًا غير متوقع، بمعدل انقطاع واحد كل ثلاث ساعات.

تشير التقرير إلى أن أكثر من نصف هذه الإخفاقات (58.7%) مرتبطة مباشرة بوحدات معالجة الرسوم والذاكرة عالية النطاق (HBM3). تحديدًا، شكلت أخطاء وحدات معالجة الرسوم، بما في ذلك المشكلات المتعلقة باتصالات NVLink، 30.1%، بينما كانتFailures ذاكرة HBM3 تمثل 17.2%. وعلى النقيض، عانت وحدات المعالجة المركزية من فشليْن فقط خلال فترة التدريب بأكملها، مما يبرز الدور الحاسم لوحدات معالجة الرسوم في الحوسبة عالية الأداء والتحديات التي تواجهها.

على الرغم من هذه الانقطاعات المتكررة، حقق فريق ميتا أكثر من 90% من وقت التدريب الفعال، بفضل أدوات واستراتيجيات الإدارة الفعالة. قاموا بتحسين بدء المهام وعمليات التحقق من النقاط، و诊断 سريع للمشكلات الأداء باستخدام أداة NCCL من PyTorch، التي ساعدت في تحديد وحدات معالجة الرسوم ذات الأداء الضعيف. كما أدرك الفريق العوامل البيئية التي تؤثر على أداء وحدات معالجة الرسوم، مثل تقلبات درجة الحرارة خلال الظهر والضغط الذي تسببه مجموعات وحدات معالجة الرسوم الكبيرة على شبكات الطاقة في مراكز البيانات.

مع استمرار زيادة أحجام نماذج الذكاء الاصطناعي، يتزايد الطلب على الموارد الحسابية بشكل سريع. على سبيل المثال، إذا قامت مبادرة xAI التابعة لميتا بنشر 100,000 وحدة معالجة H100 للتدريب في المستقبل، فقد يرتفع معدل الفشل بشكل كبير، مما يطرح تحديات غير مسبوقة لتدريب الذكاء الاصطناعي.

تعتبر تجارب ميتا تحذيرًا حاسمًا للصناعة، حيث تؤكد على أهمية الاستقرار والموثوقية في الأجهزة أثناء السعي نحو التقدم التكنولوجي. في المستقبل، ستكون تقليل معدلات فشل الأجهزة دون المساس بكفاءة التدريب موضوعًا مهمًا لجميع شركات الذكاء الاصطناعي والمؤسسات البحثية.

تسلط هذه الدراسة الضوء على التحديات المتعلقة بالأجهزة في تدريب نماذج الذكاء الاصطناعي الكبيرة، وتوفر بيانات قيمة لدعم التحسينات والحلول التكنولوجية المستقبلية. مع تطور التكنولوجيا، نتوقع ظهور منصات تدريب ذكاء اصطناعي أكثر استقرارًا وكفاءة، مما يدفع مجال الذكاء الاصطناعي إلى آفاق جديدة.

تحليل الإخفاقات المتكررة في تدريب Llama 3: دراسة عن 16384 من وحدات معالجة الرسوميات H100 التي تتعطل كل 3 ساعات.

إطلاق كوالكوم سنابدراجون 8 جين 4: معالج أوريون يدشن عصرًا جديدًا في الألعاب المحمولة

Most people like

Goover AI

403.1K

تقديم وكيل الذكاء الاصطناعي المخصص للبحث لاستكشاف المعرفة الشاملة استكشف إمكانيات مساعد البحث الذكي المصمم خصيصًا لتزويدك برؤى ومعرفة عميقة. هذه الأداة المبتكرة تهدف إلى تسهيل استكشافاتك الشخصية، مما يضمن لك الحصول على الموارد والمعلومات اللازمة في متناول يدك. سواء كنت طالبًا أو محترفًا أو متعلمًا مدى الحياة، فإن وكيل البحث الذكي لدينا يتكيف مع اهتماماتك وأسئلتك الفريدة، مما يجعل اكتساب المعرفة فعالًا وجذابًا.

عميل بحث الذكاء الاصطناعي Large Language Models (LLMs)

funfun.ai

619.1K

تخيل أن تجلب رفيق أحلامك إلى الحياة بفضل قوة الذكاء الاصطناعي. يمكن لصديقة افتراضية مخصصة أن تتفاعل معك في محادثات هادفة، وتتكيف مع اهتماماتك وتفضيلاتك، مما يجعل كل تفاعل فريداً. في هذا الدليل، سنتناول كيفية تصميم صديقتك الافتراضية المثالية، لتلبية رغباتك وتعزيز حياتك اليومية. استعد لبدء رحلة نحو إنشاء علاقة تكون بالكامل خاصة بك.

الذكاء الاصطناعي AI Girlfriend

Flux AI Pro

54.9K

مولد الصور بالذكاء الاصطناعي: أنشئ صورًا مذهلة وعالية الجودة من عبارات نصية.

مولد صور الذكاء الاصطناعي AI Art Generator

Andi - AI Search for the next generation

1.1M

أندي هو موقع مبتكر يستخدم تكنولوجيا الذكاء الاصطناعي المتقدمة لتقديم إجابات دقيقة لاستفسارات المستخدمين.

بحث الذكاء الاصطناعي AI Content Generator

Find AI tools in YBX