نماذج اللغة الكبيرة (LLMs) عادةً ما يتم تدريبها مسبقًا على مجموعات بيانات ضخمة تتضمن النصوص والشيفرات البرمجية. بينما تعتبر الشيفرة ضرورية للنماذج المخصصة لمهام البرمجة، فقد أصبح تضمينها شائعًا بشكل متزايد حتى في نماذج LLMs الموجهة للتطبيقات غير البرمجية.
في دراسة حديثة، استكشفت مجموعة من الباحثين في Cohere كيف تؤثر بيانات الشيفرة في مرحلة التدريب المسبق على الأداء العام عبر مهام متنوعة تتجاوز البرمجة. وقد أشار الباحثون إلى أنه "بينما اتفق الممارسون بشكل غير رسمي على أن بيانات الشيفرة ضرورية لأداء نماذج LLM، إلا أن البحث المحدود فقط هو ما حلل تأثيرها الدقيق على المهام غير البرمجية."
أكدت دراستهم أن الشيفرة تعزز بشكل كبير أداء نماذج LLM عبر مجموعة متنوعة من المهام غير البرمجية، مما يفتح آفاقًا جديدة للتطبيقات التدريبية في العالم الحقيقي.
تحقيقات تأثير الشيفرة
أجرى الباحثون مجموعة من التجارب لتقييم كيفية تأثير الشيفرة على الأداء العام لنماذج LLM. تضمنت العوامل الرئيسية مقدار الشيفرة في بيانات التدريب، توقيت تقديم الشيفرة خلال التدريب، جودة الشيفرة، وأحجام النماذج. باستخدام نهج تدريب متعدد المراحل، قاموا بتنفيذ "التدريب المسبق المستمر" على نماذج تم تدريبها مسبقًا، مع تضمين نسب مختلفة من النص والشيفرة على عدد ثابت من الرموز. تلا ذلك مرحلة "استراحة"، مع التركيز على مجموعات بيانات ذات جودة أعلى خلال المراحل النهائية من التدريب.
تم تدريب النموذج الأساسي فقط على النصوص. بينما تم تدريب نماذج أخرى على مجموعات بيانات متوازنة من النص والشيفرة أو على بيانات تمثل الشيفرة فقط قبل الانتقال إلى النص. تم تقييم النماذج التي تتراوح بين 470 مليون إلى 2.8 مليار معلمة عبر مجموعة متنوعة من المعايير المرتبطة بالمعرفة العالمية، تفسير اللغة الطبيعية، وأداء الشيفرة.
فوائد الشيفرة في المهام غير البرمجية
أظهرت التجارب أن الشيفرة حسّنت بشكل ملحوظ أداء نماذج LLM في المهام غير البرمجية. في تفسير اللغة الطبيعية، تفوقت النماذج المدربة بمزيج من الشيفرة باستمرار على تلك المدربة على النصوص فقط. ومن الملاحظ أن التدريب المسبق حصريًا على الشيفرة حقق أعلى أداء ضمن هذه المعايير.
وأوضح الباحثون: "هذا يشير إلى أن البدء من نموذج مدرب مسبقًا بمزيج من الشيفرة يؤثر إيجابيًا على المهام المتعلقة بتفسير اللغة الطبيعية." بالنسبة لمهام المعرفة العالمية، كان أفضل أداء متحقق من مجموعات بيانات متوازنة من الشيفرة والنص أثناء التدريب المسبق.
أشار الباحثون إلى أن "الأداء الأمثل في مهام المعرفة العالمية يعتمد على مزيج متوازن من البيانات للتهيئة ونسبة أكبر من النص خلال التدريب المستمر." في المهام التوليدية، تفوقت كل من النماذج المستندة إلى الشيفرة والنماذج المتوازنة على النماذج المعتمدة على النص، مما يدل على أن تضمين الشيفرة يحسن ليس فقط من القدرة على التفكير ولكن أيضًا من جودة التوليد.
علاوة على ذلك، لاحظ الباحثون أن فوائد إضافة الشيفرة تزداد مع حجم النموذج، حيث لوحظت أكبر المكاسب في أداء المعرفة العالمية وأداء الشيفرة، تليها تحسينات متواضعة في تفسير اللغة الطبيعية. وذكروا: "تشير هذه النتائج إلى أن العلاقة بين مهام اللغة الطبيعية وتوليد الشيفرة تزداد تعقيدًا مع زيادة حجم النموذج."
على الرغم من أن نماذج LLMs تظهر في الغالب سلوكيات جديدة على نطاقات أكبر، إلا أن الباحثين لم يتمكنوا من اختبار نماذج كبيرة جدًا بسبب قيود التكلفة. ومع ذلك، فإنهم متفائلون بأن نتائجهم ستنطبق على النطاقات الأكبر. أضافوا: "نظرًا لأن نتائجنا تثبت من 470 مليون إلى 2.8 مليار معلمة، نعتقد أنها ستنطبق على نماذج أكبر وميزانيات رموز أعلى."
كما أظهرت الدراسة أن دمج الشيفرة الاصطناعية عالية الجودة في بيانات التدريب المسبق يعزز بشكل كبير الأداء، مما يعالج القيود المتعلقة بالشيفرة الناتجة عن البشر. وقال فيرات أريابومي، المؤلف الرئيسي وباحث في Cohere: "تم إنشاء شيفرتنا الاصطناعية من بيانات المسائل لإنتاج حلول Python المعتمدة." "هذا يفتح آفاق مستقبلية، حيث يُعتبر الاستفادة من نموذج معلم عالي الأداء أمرًا أساسيًا لتوليد شيفرة اصطناعية فعالة."
بالإضافة إلى ذلك، وجدوا أن دمج بيانات مجاورة للشيفرة، مثل طلبات سحب GitHub والالتزامات، يعزز القدرة على التفكير. أدى دمج الشيفرة في مرحلة الاستراحة إلى تحسين الأداء في المهام غير البرمجية، مما يوفر رؤى قيمة للشركات التي تسعى لتحسين نماذجها باستخدام البيانات الخاصة بها بدلاً من التدريب من الصفر.
وأشار أريابومي إلى أن "مرحلة الاستراحة تتماشى بشكل وثيق مع عملية التحسين من حيث التكلفة وجودة البيانات واحتياجات الموارد، مما يحقق مكاسب كبيرة. نوصي بتضمين الشيفرة خلال عملية التدريب بالكامل." "يمكن أن يحسن الاستفادة من الشيفرة عالية الجودة – مثل قواعد الشيفرة الداخلية والبيانات المجاورة للشيفرة – النتائج أيضًا خلال مرحلة الاستراحة."
بينما تركز Cohere على تطوير نماذج LLM للاستخدامات المؤسسية، يمكن أن تؤثر هذه النتائج على نشر النماذج والمنتجات المستقبلية، مما قد يوفر مجموعة متنوعة من النماذج المدربة مسبقًا بمزيج مختلف من النصوص والشيفرة المخصصة لمهام محددة. يمكن للشركات بعد ذلك تحسين هذه النماذج باستخدام البيانات الخاصة بها لتحقيق الأداء الأمثل.
قال أريابومي: "تعد نتائجنا ذات صلة كبيرة للمطورين ومن المحتمل أن تؤدي إلى إصدار نماذج أكثر كفاءة." "ما يثير الدهشة هو كيف تعزز الشيفرة الأداء بما يتجاوز المهام المتعلقة بالبرمجة، وهذا يؤثر على نهجنا في تطوير نماذج متقدمة."