في شراكة حديثة، قامت شركة Gradient الناشئة في مجال الذكاء الاصطناعي ومنصة الحوسبة السحابية Crusoe بتوسيع نطاق السياق لنماذج Llama-3 ليصل إلى مليون توكن. يشير نطاق السياق إلى عدد التوكنات المدخلة والمخرجة التي يمكن أن تتعامل معها نماذج اللغة الكبيرة، وهو أمر حيوي للعديد من التطبيقات.
تتنافس الشركات التقنية والمختبرات الرائدة في مجال الذكاء الاصطناعي بشدة لتعزيز نطاق السياق في نماذجهم. خلال الأشهر القليلة الماضية، ارتفع دعم التوكنات من عدة آلاف إلى أكثر من مليون. ومع ذلك، فإن النماذج ذات نطاق السياق الواسع مثل Anthropic Claude (200k توكن)، وOpenAI GPT-4 (128k توكن)، وGoogle Gemini (مليون توكن) تتوفر في الغالب في إعدادات خاصة.
الحاجة إلى نماذج LLMs ذات سياق طويل مفتوحة المصدر
تتعاون Gradient مع العملاء من الشركات الراغبة في دمج نماذج LLMs في عملياتهم. حتى قبل إصدار Llama-3، واجهت الشركة قيودًا كبيرة في السياق ضمن مشاريع عملائها. على سبيل المثال، أدوات البرمجة مثل كودينغ كوبايلوت تحتاج إلى عمليات توليد كود قصيرة، بينما تطمح الشركات الآن إلى تحسين هذه القدرات لتطوير نماذج كود كاملة.
وقال ليو بيكليس، كبير العلماء في Gradient AI: "لتحقيق ذلك، يجب أن يشير نموذج اللغة إلى قاعدة كود كاملة أو عدة مستودعات على GitHub". توفير قاعدة الكود كاملة قطعة قطعة سيكون بطيئًا وعرضة للأخطاء، حيث أن النموذج لن يصل إلى الكل دفعة واحدة. وأضاف: "وجود القدرة على إدخال قواعد كود كاملة في سياق نموذج اللغة يحل العديد من المشكلات، ويسمح بحلول أكثر دقة وكفاءة".
نظرًا للقيود المفروضة على إرسال البيانات إلى جهات خارجية، لا يمكن للعديد من الشركات استخدام نماذج خاصة مثل Gemini أو Claude. وقد حفز ذلك فريق Gradient لتطوير نموذج مفتوح المصدر خاص بهم بنطاق سياق يبلغ مليون توكن.
المساهمات في البحث المفتوح
أدى تسويق نماذج LLMs إلى تراجع استعداد مختبرات الذكاء الاصطناعي لمشاركة الاكتشافات والبحث. بينما تواصل الشركات توسيع نطاق السياق، فإنها أقل ميلًا للإفصاح عن الشيفرات أو البيانات أو الاستراتيجيات المستخدمة في تحسين نماذجها. ومع ذلك، لا تزال المجتمعات البحثية المفتوحة ملتزمة بمشاركة المعرفة وتطوير النماذج. استفادت Gradient بشكل كبير من مساهمات البحث من الجامعات والمعاهد العالمية.
باستخدام نسختي Llama 3 ببارامترات 8 مليارات و70 مليار، والتي تحتوي على نطاق سياق افتراضي قدره 8000 توكن، نفذوا تقنيات من Berkeley AI Research التي سهلت التعامل مع أطوال سياق أطول دون إرهاق الذاكرة وموارد الحساب. جاءت الشيفرة الأولية من مشروع مفتوح المصدر في سنغافورة، في حين تم الحصول على الصيغ الرياضية الأساسية من مختبر في شنغهاي. تم إجراء تقييمات الأداء مقارنةً بمؤشرات من Nvidia لمقارنة نماذجهم مع نماذج LLMs ذات السياق الطويل الأخرى مثل Gemini.
وأشار بيكليس: "لولا المجتمع البحثي المفتوح، لما كان الكثير من هذا التقدم ممكنًا". "يؤثر البحث المفتوح بشكل كبير على عملنا".
تجاوز تحديات الحوسبة
الوصول إلى موارد الحوسبة هو التحدي الرئيسي في البحث عن LLMs. تعتمد معظم مختبرات الذكاء الاصطناعي على مجموعات ضخمة من وحدات معالجة الرسوميات (GPU) للتدريب والاختبار. تعاونت Gradient مع Crusoe لاستكشاف نماذج LLMs ذات السياق الطويل، مستفيدة من سحابة الذكاء الاصطناعي المتخصصة لCrusoe لاستكشاف تطوير نماذج بتكاليف أقل.
قال إيثان بيترسن، كبير المطورين في Crusoe: "كان التوقيت رائعًا حيث كنا نطلق مجموعة L40S من [Nvidia]". "كنا نهدف إلى إثبات أن هذه الرقائق تسهل التدريب الواسع، وليس فقط الاستدلال". تتنافس الشركات التقنية الكبرى للحصول على وحدات معالجة الرسوميات الراقية مثل A100 وH100 وB100 القادمة، والتي تكلف كل منها عشرات الآلاف من الدولارات، مع تجميع مجموعات الخوادم إلى ملايين. تقدم Crusoe هذه وحدات معالجة الرسوميات وتخصص الحلول للعملاء. وبالتعاون الوثيق مع Gradient، قاموا بتخصيص مجموعة L40S، مما أدى إلى تقليل تكاليف التدريب بشكل ملحوظ.
وقال باتريك مكغريجور، مدير المنتجات في Crusoe: "تركيزنا مع الشركاء مثل Gradient هو تقديم أكثر الحلول كفاءة في الحوسبة بناءً على احتياجاتهم، وكانت مجموعة L40S مثالية في هذه الحالة". "نحن نقدم قيمة هائلة من خلال تخصيص عروض الحوسبة".
أشار بيكليس إلى أن الابتكارات التي تم تحقيقها من خلال تحسين الشبكة على مجموعة L40S مكنتهم من تدريب النماذج بسرعة، وإطلاقها بعد فترة وجيزة من إطلاق Llama-3. تفتقر مقدمو الخدمات السحابية الأخرى إلى نفس المستوى من المرونة التعاونية، مما يعقد التخصيصات الخاصة.
تقنيات تقييم النماذج
أحد المؤشرات المهمة المستخدمة لتقييم نوافذ السياق الطويل هو اختبار "الإبرة في كومة القش"، حيث يتم اختبار قطعة معينة من المعلومات ضمن تسلسل نصي طويل. قال بيكليس: "تحقق نماذجنا أداءً شبه مثالي في هذا الاختبار، حتى 2 مليون سياق، ويمكن مقارنتها فقط بما رأيته مع Gemini 1.5 Pro". ومع ذلك، لاحظ أن "اختبارات الإبرة في كومة القش" قد لا تعكس الأداء العام للنموذج بشكل كامل. استخدم الفريق أيضًا تقييمات أكثر تعقيدًا، مثل العديد من "الإبر في كومة القش" أو الإبر العدائية، حيث يتم إدخال معلومات متضاربة.
قيموا نموذجهم باستخدام مؤشر RULER من Nvidia، والذي يتضمن 13 مهمة مصممة لتقييم نماذج اللغة ذات السياق الطويل مع أطوال تسلسلية ومتغيرات معقدة. كما يقوم الفريق بتحسين قدرات النماذج للتعلم في السياق بشكل متعدد الحالات، مما يمكنها من التكيف مع المهام الجديدة ديناميكيًا عن طريق تضمين مئات أو آلاف الأمثلة في الطلب.
التطبيقات التجارية لنماذج LLMs ذات السياق الطويل
يعتقد بيكليس أن النماذج المفتوحة ذات السياق الطويل ستسد الفجوة بين الشركات والمطورين الذين يسعون لبناء تطبيقات قائمة على LLMs. قال: "حاليًا، هناك تباين ملحوظ بين تطبيقات الذكاء الاصطناعي الفردية والحلول التجارية، التي تتخلف". "تمكين نماذج اللغة من التعامل مع مزيد من المعلومات في نوافذ سياقها يفتح آفاقًا جديدة".
يمكن أن تعزز السياقات الأطول أنظمة الوكالة—حيث تعمل نماذج اللغة المتعددة معًا—من خلال معالجة كميات أكبر من المعلومات مع طلبات أقل. علاوة على ذلك، يمكن لنماذج LLMs ذات السياقات الطويلة تبسيط مهام معالجة البيانات المعقدة، مثل تقليد الأسلوب. وشرح بيكليس قائلًا: "بدلاً من جمع ومعالجة البيانات من مصادر متعددة لتدريب نموذج على محاكاة أسلوب كتابتي، يمكنك ببساطة إدخال جميع رسائلي الإلكترونية السابقة، ويتعلم النموذج الكتابة مثلي".
علاوة على ذلك، يمكن أن تقلل نماذج LLMs ذات النوافذ الواسعة الاعتماد على الجيل المدعوم بالاسترجاع (RAG)، الذي يتطلب استرجاع الوثائق ذات الصلة لكل طلب. على سبيل المثال، يمكن لنموذج LLM بسياق غير محدود دمج جميع الوثائق في الطلب، واختيار الأقسام الأكثر صلة لكل استفسار—على الرغم من أنه لا يزال يتطلب إعادة الطلب لكل جلسة دردشة جديدة نظرًا لقيود السياق.
كما تساهم النوافذ السياقية المحسّنة في تخفيف الحواجز أمام إنشاء النماذج الأولية وإثبات المفاهيم، مما يساعد فرق المنتجات على فهم إمكانات نماذج اللغة. واختتم بيكليس بالقول: "غالبًا ما يكون تثقيف العملاء حول ما هو ممكن هو الخطوة الأولية الحرجة. تطوير النماذج الأولية أو الأمثلة الأولية يوضح الإمكانيات التحويلية للشركات".