نحن ريسيرش أثارت ضجة هذا الشهر بإطلاق النسخة مفتوحة المصدر من لاما 3.1، هيرميس 3. الآن، كشفت هذه المجموعة البحثية الصغيرة التي تركز على تطوير نماذج الذكاء الاصطناعي "المخصصة وغير المحدودة" عن ابتكار رائد آخر: DisTrO (التدريب الموزع عبر الإنترنت). هذا المُحسِّن الجديد يقلل بشكل كبير من حجم نقل البيانات اللازم بين وحدات معالجة الرسومات (GPUs) أثناء تدريب نماذج الذكاء الاصطناعي.
يمكن لـ DisTrO تمكين الأفراد والمؤسسات حول العالم من تدريب نماذج ذكاء اصطناعي متقدمة بشكل تعاوني عبر اتصالات إنترنت ذات جودة استهلاكية، مما يلغي الحاجة إلى هيمنة الشركات الكبرى على عملية التدريب. في ورقة تقنية صدرّت مؤخرًا، كشف فريق نحن ريسيرش أن DisTrO يحقق زيادة ملحوظة في الكفاءة تبلغ 857 مرة مقارنةً بخوارزمية التدريب الشائعة All-Reduce. كما يقلل من نقل البيانات من 74.4 غيغابايت إلى 86.8 ميغابايت فقط لكل خطوة تدريب، مما ينتج عنه انخفاض طفيف في الأداء. تلخص النتائج في الجدول أدناه من ورقتهم البحثية.
في نهاية المطاف، يمكن أن يؤدي DisTrO إلى ديمقراطية الوصول إلى تدريب نماذج الذكاء الاصطناعي القوية، مما يتيح لمزيد من الأشخاص استكشاف وتطوير أفكار جديدة دون عوائق الشركات.
تحديات تدريب الذكاء الاصطناعي: متطلبات الأجهزة الكبيرة
كما نوقش سابقًا، فإن وحدات معالجة الرسوميات من Nvidia تشهد طلبًا مرتفعًا خلال طفرة الذكاء الاصطناعي التوليدي. تقدم هذه البطاقات الغالية الطاقة المعالجة المتوازية اللازمة لتدريب الذكاء الاصطناعي بكفاءة وسرعة. تعتمد عملية التدريب بشكل كبير على مجموعات من وحدات معالجة الرسوميات التي تتواصل لمشاركة الرؤى المستفادة من مجموعات بيانات التدريب.
تتطلب "الاتصالات بين وحدات معالجة الرسوميات" تصميمًا دقيقًا لمجموعات وحدات معالجة الرسوميات لتقليل زمن الانتظار وزيادة معدل نقل البيانات. ونتيجة لذلك، تستثمر شركات مثل تسلا في "عناقيد ضخمة" تتكون من آلاف وحدات معالجة الرسوميات في منشآت كبيرة.
بسبب هذه المتطلبات الصارمة، يصبح تدريب الذكاء الاصطناعي التوليدي، خاصةً النماذج الأكثر تعقيدًا، غالبًا مشروعًا يعتمد على رأس المال، مما يجعله متاحًا أساسًا للشركات الممولة جيدًا مثل تسلا، ميتا، OpenAI، مايكروسوفت، جوجل، وأنتروبك.
كل من هذه المنظمات لديها منهجية تدريب خاصة بها، لكنها جميعًا تستخدم عمومًا أجهزة مماثلة وتتحكم بشكل حازم في عمليات تدريب الذكاء الاصطناعي، مما يجعل من الصعب على المبتدئين أو المطورين العاديين التنافس مع نماذج ذات معلمات مشابهة. ومع ذلك، تميز نحن ريسيرش نفسها من خلال الدعوة إلى تطوير الذكاء الاصطناعي القابل للوصول الذي يمكن لأي شخص تخصيصه دون قيود.
ما يميز DisTrO
تتطلب طرق تدريب الذكاء الاصطناعي التقليدية مزامنة التدرجات الكاملة بين عدة وحدات معالجة رسوميات وتعتمد على اتصالات عالية النطاق. بالمقابل، يقلل DisTrO من عبء الاتصالات بمقدار أربع إلى خمس مرات. بينما لم يتم الإفصاح بالكامل عن الخوارزميات المحددة التي تجعل هذه الكفاءة ممكنة، يعتزم المؤلفون مشاركة المزيد من التفاصيل قريبًا. تم تحقيق هذا التخفيض دون الاعتماد على التحليل المدروس أو التأثير على معدل التقارب، مما يسمح بتدريب النماذج الضخمة عبر اتصالات إنترنت أبطأ—100 ميغابت في الثانية للتحميل و10 ميغابت في الثانية للرفع، وهو ما يمكن الوصول إليه على نطاق واسع من قبل المستهلكين.
اختبر الفريق البحثي DisTrO باستخدام نموذج لاما 2 من ميتا، الذي يحتوي على 1.2 مليار معلمة. أظهرت النتائج أداءً تدريبياً مشابهاً للطرق التقليدية مع تقليل كبير في نقل البيانات. يشير الفريق إلى أن هذا النموذج هو الأصغر وأكثر فاعلية مع DisTrO ولا يزالون غير متأكدين من كيفية تأثير تخفيض النطاق الترددي على حجم النموذج.
تشير الاختبارات الأولية إلى إمكانية تقليل النطاق الترددي بمعدل 1000 إلى 3000 مرة أثناء مرحلة ما قبل التدريب وحتى 10000 مرة بعد التدريب، مع عدم وجود تدهور ملحوظ في الأداء. كما يتكهنون بأن DisTrO يمكن أن يُستخدم لتدريب نماذج الانتشار الكبيرة، مثل Stable Diffusion وخدمات توليد الصور المشابهة.
الضرورة المستمرة لوحدات معالجة الرسوميات
من المهم الإشارة إلى أن DisTrO لا يزال يتطلب وحدات معالجة الرسوميات، لكنه يتيح لها العمل بشكل موزع عالميًا بدلاً من التواجد في نفس المنشأة. بشكل خاص، شملت التقييم 32 وحدة معالجة رسوميات من نوع H100 باستخدام استراتيجية التوازي في البيانات الموزعة، حيث كانت كل وحدة معالجة تحتوي على النموذج الكامل في VRAM. مكّن هذا الإطار من اختبار قدرات DisTrO بدقة، مثبتًا أنه يمكنه مضاهاة معدلات التقارب لـ AdamW+All-Reduce، كل ذلك مع تقليل كبير في احتياجات الاتصال.
يمكن أن disrupt DisTrO الطرق التقليدية للتدريب دون المساومة على جودة النموذج، مقدماً حلاً قابلاً للتوسع لتدريب موزع على نطاق واسع. من خلال خفض الحاجة إلى اتصالات عالية السرعة، يمكّن من تدريب النماذج بشكل تعاوني عبر الشبكات اللامركزية، حتى بين المستخدمين الذين يمتلكون خدمات إنترنت عادية.
يتعمق التقرير البحثي أيضًا في آثار DisTrO على التعلم الفيدرالي والتدريب اللامركزي. قد تساعد كفاءته أيضًا في تخفيف التأثير البيئي لتدريب الذكاء الاصطناعي من خلال تحسين البنية التحتية الحالية وتقليل الاعتماد على مراكز البيانات الضخمة.
علاوة على ذلك، يمكن أن تؤدي هذه الابتكارات إلى تغيير نموذج تدريب النماذج الكبيرة من مراكز البيانات المركزية والمرتفعة الموارد إلى طرق أكثر توزيعًا وتعاونًا تستخدم موارد حوسبة متنوعة.
ماذا بعد لنحن ريسيرش وDisTrO؟
يدعو الفريق البحثي الآخرين للانضمام إليهم في استكشاف إمكانيات DisTrO. تتوفر تقارير أولية ومواد إضافية على GitHub، وهم يبحثون بنشاط عن متعاونين لت refin وتوسيع هذه التكنولوجيا المبتكرة.
لقد أشاد مؤثرو الذكاء الاصطناعي، مثل @kimmonismus على منصة X، بهذا البحث باعتباره قد يكون محوريًا في هذا المجال، مُعلنين: "هذا يمكن أن يغير كل شيء!"
مع DisTrO، لا تعزز نحن ريسيرش فقط قدرات تدريب الذكاء الاصطناعي، بل تعزز أيضًا بيئة بحث أكثر شمولية قادرة على تحقيق تقدم كبير في الذكاء الاصطناعي.