تحسين نماذج اللغة الكبيرة (LLMs) أصبح أمرًا حيويًا للشركات التي تسعى لتخصيص الذكاء الاصطناعي لمهام محددة وتعزيز تجارب المستخدمين. لكن التكاليف الحاسوبية والمالية لتحسين هذه النماذج غالبًا ما تقيد إمكانية الوصول إليها بالنسبة للشركات ذات الموارد المحدودة.
لمواجهة هذه التحديات، طور الباحثون خوارزميات تقلل بشكل كبير من التكاليف المرتبطة بتحسين نماذج اللغة الكبيرة. من بين الابتكارات الأحدث هو S-LoRA، مشروع تعاوني بين جامعة ستانفورد وجامعة UC بيركلي.
فتح الأبواب للذكاء الاصطناعي منخفض التكلفة
S-LoRA يمكّن المنظمات من نشر نماذج LLM المحسّنة بتكاليف منخفضة للغاية، مما يتيح لها تشغيل مئات أو آلاف النماذج على وحدة معالجة الرسومات (GPU) الواحدة. هذه الطفرة تفتح المجال لعدد كبير من تطبيقات LLM التي كانت تعتبر سابقًا باهظة التكلفة أو مكثفة في الموارد.
فهم التكيف منخفض الرتبة
تقليديًا، يتطلب تحسين LLM إعادة تدريب نموذج مدرب مسبقًا، مما يتطلب تعديل جميع المعلمات لتناسب مهمة معينة. نظرًا لاحتواء LLM على مليارات المعلمات، فإن هذه الطريقة تجهد الموارد الحاسوبية بشكل كبير.
تقنيات تحسين المعلمات بكفاءة (PEFT)، مثل التكيف منخفض الرتبة (LoRA)، تقدم بديلاً عن طريق ضبط مجموعة صغيرة من معلمات النموذج بشكل انتقائي. تم تطوير LoRA من قبل Microsoft، وهو يقلل بشكل كبير من عدد المعلمات القابلة للتدريب مع الحفاظ على دقة مشابهة لتحسين كامل النموذج. هذه الكفاءة تعني متطلبات أقل من حيث الذاكرة والموارد الحاسوبية.
لقد أدى فاعلية LoRA إلى اعتماد واسع له، مع إنشاء العديد من المحولات لنماذج LLM المدربة مسبقًا ونماذج الانتشار. بعد تحسين النموذج، يمكن للمستخدمين إما دمج أوزان LoRA مع النموذج الأساسي أو الاحتفاظ بها كعناصر منفصلة، مما يسمح بوجود عدة محولات LoRA تحتفظ بذاكرة قليلة.
تطبيقات متنوعة مع S-LoRA
إمكانات تطبيق S-LoRA واسعة، بدءًا من إنشاء المحتوى إلى خدمة العملاء. على سبيل المثال، يمكن لمنصة تدوين استخدام هذه التقنية لتقديم نماذج LLM محسّنة قادرة على إنشاء محتوى بأسلوب فريد للكاتب دون تكاليف مرتفعة.
تجاوز التحديات التقنية
على الرغم من جاذبية نشر نماذج LoRA متعددة فوق نموذج LLM الأساسي، إلا أن هناك العديد من التحديات التقنية. إدارة الذاكرة هي أحد الأمور الأساسية، حيث تتمتع وحدات معالجة الرسومات بسعة ذاكرة محدودة، مما يقيد عدد المحولات التي يمكن تحميلها مع النموذج الأساسي. لذا، يعد نظام إدارة الذاكرة القوي أمرًا ضروريًا لضمان التشغيل السلس.
بالإضافة إلى ذلك، تستخدم خوادم LLM التجميع لتحسين الإنتاجية من خلال معالجة طلبات متعددة في وقت واحد. ومع ذلك، قد تؤدي اختلافات حجم محولات LoRA وحساباتها المنفصلة عن النموذج الأساسي إلى اختناقات.
يعالج S-LoRA هذه القضايا بإدارة ذاكرة ديناميكية تعمل على تبديل محولات LoRA بين وحدة معالجة الرسومات والذاكرة العشوائية حسب الحاجة. آلية "الصفحات الموحدة" المبتكرة تضمن التعامل الفعال مع ذاكرات استعلام النموذج وأوزان المحولات، مما يمكن الخادم من معالجة مئات أو آلاف من الاستفسارات المجمعة دون تفتت الذاكرة.
علاوة على ذلك، يتضمن S-LoRA نظام "التوازي التنسوري" المتقدم، مما يضمن توافقه مع النماذج الكبيرة عبر عدة وحدات معالجة رسومية. معًا، تتيح هذه التطورات لـ S-LoRA دعم العديد من محولات LoRA على وحدة معالجة رسومية واحدة أو عبر وحدات معالجة رسومية متعددة.
خدمة آلاف النماذج في وقت واحد
قيم الباحثون S-LoRA باستخدام نسخ مختلفة من نموذج Llama مفتوح المصدر من Meta عبر تكوينات GPU متعددة. أظهرت النتائج أن S-LoRA يتفوق في الحفاظ على الإنتاجية وكفاءة الذاكرة على نطاق واسع.
في الاختبارات مقارنة مع مكتبة تحسين المعلمات الرائدة Hugging Face PEFT، حققت S-LoRA زيادة في الإنتاجية تصل إلى 30 مرة. عند المقارنة مع vLLM، وهو نظام خدمة عالي الإنتاجية بدعم أساسي لـ LoRA، ربعت S-LoRA الإنتاجية مع زيادة كبيرة في عدد المحولات المخدمة في وقت واحد.
من الميزات البارزة لـ S-LoRA قدرتها على خدمة 2000 محول في الوقت نفسه مع حد أدنى من العبء الحاسوبي الإضافي. كما أوضحت يينغ شينغ، طالبة دكتوراه في جامعة ستانفورد ومؤلفة مشاركة في الورقة، "يمكن لمزودي الخدمة استخدام نفس النموذج الأساسي مع تخصيص محولات لطلبات مستخدمين فرديين، والتي يمكن ضبطها باستخدام بيانات محددة للمستخدم."
تصميم S-LoRA أيضًا يتماشى مع التعلم ضمن السياق، مما يمكّن المستخدمين من الاستفادة من المحولات الشخصية بينما يتم دمج بيانات حديثة لتعزيز استجابة LLM. "هذا النهج يمكن أن يكون أكثر فاعلية وكفاءة من حيث التكاليف مقارنةً بالتحفيز التقليدي ضمن السياق"، أشارت شينغ.
الآن، الشفرة المصدرية لـ S-LoRA متاحة على GitHub، ويخطط الباحثون لدمجها في أطر تقديم LLM الشعبية، مما يتيح للشركات بسهولة اعتماد S-LoRA في تطبيقاتها.