في دراسة حديثة، اقترح باحثون من Meta وإيكول دي بون باريس تك وجامعة باريس-ساكلاي نهجًا جديدًا لتعزيز دقة وسرعة نماذج اللغة الكبيرة (LLMs) عن طريق تمكينها من التنبؤ بعدة رموز في وقت واحد. تتحدى هذه الابتكارات تصميم النموذج التلقائي التقليدي، الذي يتنبأ برمز واحد في كل مرة.
فوائد التنبؤ المتعدد بالرموز
بينما قد لا يكون التنبؤ المتعدد بالرموز مناسبًا لكل نموذج لغة أو مهمة لغوية، إلا أنه يقدم مزايا كبيرة في سيناريوهات معينة، مثل تسريع المهام التوليدية بسرعة تصل إلى ثلاثة أضعاف الطرق التقليدية. على الرغم من وجود إمكانية للتحسين، فإن هذه التقنية يمكن أن تكون أداة قوية في تطبيقات معينة لنماذج اللغة الكبيرة.
تحديات التنبؤ بالرمز التالي
الطريقة التقليدية لتدريب نماذج اللغة الكبيرة تُعرف بـ "التنبؤ بالرمز التالي". تتضمن هذه التقنية في التعلم الذاتي تقديم تسلسل من الرموز للنموذج، مما يدفعه إلى التنبؤ بالرمز التالي، والذي يتم إضافته بعد ذلك لإجراء المزيد من التنبؤات. تمكن هذه العملية المتكررة، المطبقة على نصوص ضخمة، النموذج من تعلم إنشاء نصوص متسقة. ومع ذلك، فقد حدد الباحثون القيود التي تواجهها طريقة التنبؤ بالرمز التالي في تطوير معالجة اللغة واكتساب المعرفة ومهارات التفكير.
استكشاف التنبؤ المتعدد بالرموز
يعمل التنبؤ المتعدد بالرموز على توجيه نموذج اللغة الكبيرة للتنبؤ بعدة رموز مستقبلية في كل موضع من بيانات التدريب في وقت واحد. قدم الباحثون بنية بسيطة للتنبؤ المتعدد بالرموز لا تتطلب زمن تدريب إضافي أو متطلبات ذاكرة زائدة. يبني هذا النموذج على بنية المحولات المعروفة، التي تعتبر أساسية لمعظم نماذج اللغة الكبيرة، ولكن مع تعديلات. بدلاً من إنتاج مخرج واحد، يشمل عدة رؤوس مخرجات مستقلة لكل تنبؤ برمز.
نتائج الملاحظات
اختبر الفريق استراتيجيتهم في التنبؤ المتعدد بالرموز مع نماذج تتراوح من 300 مليون إلى 13 مليار معامل. تكشف النتائج عن أنماط ملحوظة: حيث أن النماذج الصغيرة تستفيد أقل من التنبؤ المتعدد بالرموز، الذي يصبح أكثر فعالية كلما زاد حجم النموذج. أظهرت النماذج المدربة على التنبؤ بأربعة رموز تحسينات ملحوظة في الأداء عدة نقاط مئوية مقارنةً بالتنبؤ برمز واحد على معيار MBPP للبرمجة. واستنتاج الباحثين: "من الممكن، باستخدام نفس الموارد الحاسوبية، تحقيق أداء أكبر من نماذج اللغة الكبيرة عند استخدام التنبؤ المتعدد بالرموز."
توجهات الأبحاث المستقبلية
رغم مزاياها، لا تخلو تقنية التنبؤ المتعدد بالرموز من التحديات. يتفاوت تحديد العدد الأمثل للرموز المتنبأة حسب المهمة وحجم النموذج. يستكشف الباحثون آفاق البحث المستقبلية، بما في ذلك تقنيات آلية لتحديد العدد الأفضل من الرموز المتنبأة وديناميكيات أحجام المفردات واستراتيجيات التنبؤ المتعدد.
يمثل هذا البحث وعدًا كبيرًا للتطبيقات المؤسسية، مما يوفر سرعات استدلال محسنة ودقة أفضل للمهام التوليدية مثل إكمال الشيفرة، دون تغييرات كبيرة في بنية نماذج اللغة الكبيرة الحالية، مما يضمن التوافق مع تقنيات تحسين أخرى ضمن إطار المحولات.