كيفية تقليل تكاليف استنتاج نماذج اللغة الكبيرة من خلال إبعاد الانتباه عند النطاق الواسع

Home أخبار الذكاء الاصطناعي كيفية تقليل تكاليف استنتاج نماذج اللغة الكبيرة من خلال إبعاد الانتباه عند النطاق الواسع

Updated on مايو 14 2024

توصلت دراسة حديثة أجراها باحثون من جامعة تسينغوا إلى أن إعادة ترتيب العمليات الحسابية وتكوينات الأجهزة لنماذج اللغة الكبيرة (LLMs) يمكن أن يقلل بشكل كبير من تكاليف الاستدلال. وقد قدموا تقنية تُعرف باسم "تحويل الانتباه"، والتي تستخدم وحدات معالجة الرسوميات الاقتصادية للمهام التي تتطلب ذاكرة كبيرة، مما يسمح للمسرعات عالية الأداء بالتركيز على العمليات الثقيلة في الحساب.

مع ارتفاع تكاليف المسرعات الذكية وندرتها وازدياد الطلب عليها، تقدم تقنية تحويل الانتباه فرصة للشركات لت优化 مواردها الأجهزة عند نشر LLMs على نطاق واسع.

نوعان من العمليات الحسابية

يشمل استدلال LLM عمليات متعددة تحتاج إلى تنظيم استراتيجي للاستفادة القصوى من الذاكرة المتاحة وإمكانات المعالجة. يمكن تصنيف هذه العمليات إلى نوعين رئيسيين: العمليات المعتمدة على الحسابات والعمليات المعتمدة على الذاكرة. تستفيد العمليات المعتمدة على الحسابات من المسرعات السريعة مثل A100 و H100، بينما تحتاج العمليات المعتمدة على الذاكرة، وخاصة آلية الانتباه الذاتي التي تُ triggered بكل رمز جديد، إلى ذاكرة فيديو كبيرة.

وأشار الباحثون إلى أن "عبء العمل المعتمد على الذاكرة يتعارض مع نقاط القوة في المسرعات الحديثة، مما يؤدي إلى إرباك وحدات التحكم في الذاكرة في حين تبقى النوى الحسابية غير نشطة." وتزداد عدم التوازن في الموارد مع زيادة طول تسلسل البيانات، كما هو الحال خلال الطلبات الطويلة أو المحادثات مع النموذج.

الحل المبتكر: تحويل الانتباه

تركز الأساليب الحالية عادة على توسيع هياكل متجانسة من المسرعات عالية الجودة للاستدلال. تستثمر الشركات كثيرًا في معالجات H100 لتعزيز قدرات الاستدلال، مما يؤدي إلى تضخم التكاليف واستخدام الأجهزة بطريقة غير مثالية.

ويرى الباحثون أن "المتطلبات الفريدة لمرحلة توليد LLM تحتاج إلى هيكل هيتروجيني لتحسين الكفاءة وتقليل التكاليف." تشير دراستهم إلى أن أنواعًا مختلفة من المسرعات تتناسب مع جوانب معينة من استدلال LLM. على سبيل المثال، تعتبر وحدات معالجة الرسوميات المتوسطة خيارًا اقتصاديًا للمهام المعتمدة على الذاكرة، حيث تقدم ثلاثة أضعاف سعة الذاكرة والنطاق الترددي لكل دولار مقارنة بالنماذج عالية الجودة. ومع ذلك، فإن الاعتماد الحصري على هذه الخيارات ذات التكلفة المنخفضة قد يكون غير فعال بسبب محدودية القدرة الحسابية.

لكن عمليات الانتباه تُعتبر عالية التوازي ويمكن توزيعها عبر عدة وحدات معالجة رسوميات اقتصادية وفعالة من حيث الذاكرة.

تنفيذ هيكل هيتروجيني

تتضمن تقنية تحويل الانتباه إنشاء مجموعتين منفصلتين من المسرعات: مجموعة تركز على القدرات الحسابية والأخرى محسنة لنطاق الذاكرة. بهذه الطريقة، تُعالج مهام الانتباه بواسطة وحدات معالجة رسوميات منخفضة التكلفة بينما تدير المسرعات عالية الجودة العمليات الأخرى.

وأوضح الباحثون أن "هذا الهيكل الهيديروجيني يسمح بنظام خدمة يجمع بكفاءة بين القوة الحسابية وسعة الذاكرة والنطاق الترددي لتعزيز استدلال LLM دون تكاليف مفرطة." يمكّن هذا التوافق الاستراتيجي بين نقاط القوة للأجهزة ومتطلبات التشغيل الشركات من أقصى استفادة من ميزانياتها من خلال الاستثمار في مزيج متوازن من المسرعات المحسنة للذاكرة والحسابات.

معالجة التحديات المعمارية

تُقيّم الدراسة التحديات المرتبطة بهذا الهيكل الهيديروجيني، ولا سيما النطاق الترددي اللازم لربط مجموعتي المسرعات. توضح النتائج أنه ليس فقط يمكن للناقلات النظامية القياسية مثل PCIe 4.0 أن تكون كافية، ولكن أيضًا تقنيات الشبكات مثل 200Gb Infiniband و Ethernet، الشائعة بالفعل في مراكز بيانات الذكاء الاصطناعي، تعتبر ملائمة.

يساعد استخدام تقنيات الجدولة المتقدمة وتقنيات الأنابيب في التخفيف من التأخير الناجم عن الهيكل غير المتجانس، مما يضمن أن موارد الذاكرة والحساب تعمل في وقت واحد دون عائق عن العمليات التسلسلية.

تقديم لامينه

طور الباحثون لامينه، وهو نظام استدلال موزع ومتغاير لـ LLM يستفيد من تقنية تحويل الانتباه. تستخدم لامينه وحدات معالجة الرسوميات التجارية لتخزين قيم الانتباه المحسوبة (ذاكرة KV) وأداء عمليات الانتباه، بينما تتولى المسرعات عالية الجودة إدارة معلمات النموذج والمهام الأخرى. يمكن أن تعمل هذه الأجهزة ضمن نفس الجهاز الفيزيائي أو توزع عبر عدة عقد.

من خلال نقل تخزين ذاكرة KV وعمليات الانتباه إلى وحدات معالجة رسوميات فعالة من حيث الذاكرة، يمكن لامينه التعامل مع دفعات أكبر بـ 10.7 إلى 64 مرة مقارنة بتلك التي تديرها vLLM، وهي منصة شائعة لخدمة LLM. تعتبر هذه الكفاءة حاسمة للاستفادة المثلى من المسرعات المحسنة للحساب المكلفة، خاصة في نشرات LLM واسعة النطاق.

تكشف التقييمات التجريبية أن لامينه تحقق معدلات إنتاجية تصل إلى 1.48 إلى 12.1 مرة أكبر لكل تكلفة مقارنة بالحلول الحالية للنماذج 13B و 33B.

مع انتشار LLMs، ستحتاج الشركات إلى استراتيجيات مبتكرة للاستدلال بتكلفة فعالة وتقليل التكاليف الرأسمالية على المسرعات—هدف تعالجه تقنية تحويل الانتباه بنجاح. على الرغم من أن الباحثين لم يطلقوا بعد الكود الخاص بلامينه، إلا أن الأسس موضوعة بشكل واضح، مما يجعل من المحتمل أن تجذب تنفيذًا سريعًا من المجتمع مفتوح المصدر.

جوجل تطلق مشروع أسترا: عميل ذكاء اصطناعي مصمم لفهم الديناميات العالمية والتنافس مع GPT-4.

جوجل تكشف عن فيو: نموذج جديد مذهل لتوليد الفيديو بالذكاء الاصطناعي لمنافسة سورا من أوبن AI.

Most people like

Deepfakes Web

يعمل هذا التطبيق عبر الإنترنت على إنشاء مقاطع فيديو مزيفة من خلال تبديل الوجوه مع ضمان خصوصية المستخدم.

تزييف عميق AI Face Swap Generator

Superblog

17.5K

استمتع بتدوين فائق السرعة مع منصتنا، المصممة بأفضل الممارسات الأساسية لرفع مستوى إبداع محتواك.

بديل ووردبريس AI Blog Writer

Vocal Remover

36.4K

اكتشف عالمًا من الإبداع مع أداتنا المتقدمة لاستخراج الأصوات والمرافقة. سواء كنت موسيقيًا أو منتجًا أو منشئ محتوى، فإن هذا البرنامج المبتكر يتيح لك عزل الأصوات والآلات الموسيقية من أي مقطع موسيقي بسهولة. وداعًا لعمليات التحرير المعقدة ومرحبًا بتسهيل سير العمل وزيادة المرونة في مشاريعك. استكشف كيف يمكن لتقنيتنا المتطورة أن تعزز مستوى إنتاجك الموسيقي اليوم!

مزيل الصوت Other

Skillsoft Percipio

1.6M

جسر الفجوات المهارية ودفع تحول القوى العاملة من خلال منصة Skillsoft للتعلم المدعومة بالذكاء الاصطناعي. استمتع بأسلوب ديناميكي في تطوير الموظفين يستفيد من أحدث التقنيات لتحقيق نتائج مؤثرة.

التعليم المدعوم بالذكاء الاصطناعي AI Course

Find AI tools in YBX