توصلت دراسة حديثة أجراها باحثون من جامعة تسينغوا إلى أن إعادة ترتيب العمليات الحسابية وتكوينات الأجهزة لنماذج اللغة الكبيرة (LLMs) يمكن أن يقلل بشكل كبير من تكاليف الاستدلال. وقد قدموا تقنية تُعرف باسم "تحويل الانتباه"، والتي تستخدم وحدات معالجة الرسوميات الاقتصادية للمهام التي تتطلب ذاكرة كبيرة، مما يسمح للمسرعات عالية الأداء بالتركيز على العمليات الثقيلة في الحساب.
مع ارتفاع تكاليف المسرعات الذكية وندرتها وازدياد الطلب عليها، تقدم تقنية تحويل الانتباه فرصة للشركات لت优化 مواردها الأجهزة عند نشر LLMs على نطاق واسع.
نوعان من العمليات الحسابية
يشمل استدلال LLM عمليات متعددة تحتاج إلى تنظيم استراتيجي للاستفادة القصوى من الذاكرة المتاحة وإمكانات المعالجة. يمكن تصنيف هذه العمليات إلى نوعين رئيسيين: العمليات المعتمدة على الحسابات والعمليات المعتمدة على الذاكرة. تستفيد العمليات المعتمدة على الحسابات من المسرعات السريعة مثل A100 و H100، بينما تحتاج العمليات المعتمدة على الذاكرة، وخاصة آلية الانتباه الذاتي التي تُ triggered بكل رمز جديد، إلى ذاكرة فيديو كبيرة.
وأشار الباحثون إلى أن "عبء العمل المعتمد على الذاكرة يتعارض مع نقاط القوة في المسرعات الحديثة، مما يؤدي إلى إرباك وحدات التحكم في الذاكرة في حين تبقى النوى الحسابية غير نشطة." وتزداد عدم التوازن في الموارد مع زيادة طول تسلسل البيانات، كما هو الحال خلال الطلبات الطويلة أو المحادثات مع النموذج.
الحل المبتكر: تحويل الانتباه
تركز الأساليب الحالية عادة على توسيع هياكل متجانسة من المسرعات عالية الجودة للاستدلال. تستثمر الشركات كثيرًا في معالجات H100 لتعزيز قدرات الاستدلال، مما يؤدي إلى تضخم التكاليف واستخدام الأجهزة بطريقة غير مثالية.
ويرى الباحثون أن "المتطلبات الفريدة لمرحلة توليد LLM تحتاج إلى هيكل هيتروجيني لتحسين الكفاءة وتقليل التكاليف." تشير دراستهم إلى أن أنواعًا مختلفة من المسرعات تتناسب مع جوانب معينة من استدلال LLM. على سبيل المثال، تعتبر وحدات معالجة الرسوميات المتوسطة خيارًا اقتصاديًا للمهام المعتمدة على الذاكرة، حيث تقدم ثلاثة أضعاف سعة الذاكرة والنطاق الترددي لكل دولار مقارنة بالنماذج عالية الجودة. ومع ذلك، فإن الاعتماد الحصري على هذه الخيارات ذات التكلفة المنخفضة قد يكون غير فعال بسبب محدودية القدرة الحسابية.
لكن عمليات الانتباه تُعتبر عالية التوازي ويمكن توزيعها عبر عدة وحدات معالجة رسوميات اقتصادية وفعالة من حيث الذاكرة.
تنفيذ هيكل هيتروجيني
تتضمن تقنية تحويل الانتباه إنشاء مجموعتين منفصلتين من المسرعات: مجموعة تركز على القدرات الحسابية والأخرى محسنة لنطاق الذاكرة. بهذه الطريقة، تُعالج مهام الانتباه بواسطة وحدات معالجة رسوميات منخفضة التكلفة بينما تدير المسرعات عالية الجودة العمليات الأخرى.
وأوضح الباحثون أن "هذا الهيكل الهيديروجيني يسمح بنظام خدمة يجمع بكفاءة بين القوة الحسابية وسعة الذاكرة والنطاق الترددي لتعزيز استدلال LLM دون تكاليف مفرطة." يمكّن هذا التوافق الاستراتيجي بين نقاط القوة للأجهزة ومتطلبات التشغيل الشركات من أقصى استفادة من ميزانياتها من خلال الاستثمار في مزيج متوازن من المسرعات المحسنة للذاكرة والحسابات.
معالجة التحديات المعمارية
تُقيّم الدراسة التحديات المرتبطة بهذا الهيكل الهيديروجيني، ولا سيما النطاق الترددي اللازم لربط مجموعتي المسرعات. توضح النتائج أنه ليس فقط يمكن للناقلات النظامية القياسية مثل PCIe 4.0 أن تكون كافية، ولكن أيضًا تقنيات الشبكات مثل 200Gb Infiniband و Ethernet، الشائعة بالفعل في مراكز بيانات الذكاء الاصطناعي، تعتبر ملائمة.
يساعد استخدام تقنيات الجدولة المتقدمة وتقنيات الأنابيب في التخفيف من التأخير الناجم عن الهيكل غير المتجانس، مما يضمن أن موارد الذاكرة والحساب تعمل في وقت واحد دون عائق عن العمليات التسلسلية.
تقديم لامينه
طور الباحثون لامينه، وهو نظام استدلال موزع ومتغاير لـ LLM يستفيد من تقنية تحويل الانتباه. تستخدم لامينه وحدات معالجة الرسوميات التجارية لتخزين قيم الانتباه المحسوبة (ذاكرة KV) وأداء عمليات الانتباه، بينما تتولى المسرعات عالية الجودة إدارة معلمات النموذج والمهام الأخرى. يمكن أن تعمل هذه الأجهزة ضمن نفس الجهاز الفيزيائي أو توزع عبر عدة عقد.
من خلال نقل تخزين ذاكرة KV وعمليات الانتباه إلى وحدات معالجة رسوميات فعالة من حيث الذاكرة، يمكن لامينه التعامل مع دفعات أكبر بـ 10.7 إلى 64 مرة مقارنة بتلك التي تديرها vLLM، وهي منصة شائعة لخدمة LLM. تعتبر هذه الكفاءة حاسمة للاستفادة المثلى من المسرعات المحسنة للحساب المكلفة، خاصة في نشرات LLM واسعة النطاق.
تكشف التقييمات التجريبية أن لامينه تحقق معدلات إنتاجية تصل إلى 1.48 إلى 12.1 مرة أكبر لكل تكلفة مقارنة بالحلول الحالية للنماذج 13B و 33B.
مع انتشار LLMs، ستحتاج الشركات إلى استراتيجيات مبتكرة للاستدلال بتكلفة فعالة وتقليل التكاليف الرأسمالية على المسرعات—هدف تعالجه تقنية تحويل الانتباه بنجاح. على الرغم من أن الباحثين لم يطلقوا بعد الكود الخاص بلامينه، إلا أن الأسس موضوعة بشكل واضح، مما يجعل من المحتمل أن تجذب تنفيذًا سريعًا من المجتمع مفتوح المصدر.