تعمل GenRM من DeepMind على تحسين دقة نماذج اللغات الكبيرة (LLMs) من خلال التحقق الذاتي من النتائج.

تواجه نماذج اللغة الكبيرة (LLMs) أخطاءً في الحقائق والمنطق، especialmente خلال مهام التفكير المعقدة. للحد من هذه المشكلة، يقوم الباحثون غالبًا بتطبيق نماذج تحقق أو نماذج مكافأة لتقييم واختيار أكثر الردود دقة من بين مجموعة من المخرجات التي تولدها LLMs.

تقدم ورقة حديثة من باحثين في Google DeepMind وجامعة تورونتو وMila وجامعة كاليفورنيا في لوس أنجلوس مفهوم GenRM، وهو نهج مبتكر يستفيد من القدرات التوليدية لـ LLMs لتعزيز عمليات التحقق. يعتبر GenRM أداة قيمة لتطبيقات تعتمد على LLMs حيث تفشل طرق التحقق التقليدية.

قيود المراجع التقليدية ونماذج المكافأة

تعد طريقة شائعة لتعزيز دقة LLMs هي توليد إجابات مرشحة متعددة واستخدام عنصر متميز لتحديد الأفضل. يتطلب ذلك وجود مراجع موثوق أو نموذج مكافأة. عادةً ما يتم تدريب المراجع المعتمدة على LLMs كنماذج مكافأة تمييزية (RMs) تعمل على تخصيص درجات عددية لتقييم الحلول المرشحة كصحيحة أو خاطئة. ومع ذلك، فإن هذه الـ RMs لا تستفيد تماماً من نقاط القوة الفطرية لـ LLMs في إنشاء ومعالجة الردود.

يقول ريشاب أغاروال، أحد مؤلفي الورقة وباحث بارز في DeepMind: "على الرغم من أن نماذج المكافأة التقليدية / المراجع تُدرّب عن طريق تحسين LLMs، إلا أنها لا تستخدم قدرات توليد النصوص التي تم تصميم LLMs من أجلها".

تستخدم تقنية شائعة أخرى، LLM-as-a-Judge، طرق تحفيز متقدمة لتقييم الردود. على الرغم من أن هذا النهج يوفر مرونة، إلا أنه يفتقر إلى القدرات التي تكتسب من نماذج المكافأة أثناء التدريب.

نماذج المكافأة التوليدية

يقدم GenRM من DeepMind بديلاً من خلال تدريب المراجع عبر توقع التوكن التالي، مما يستفيد من نقاط القوة التوليدية لـ LLMs. يُشير أغاروال قائلاً: "يسمح تدريب نماذج المكافأة عبر توقع التوكن التالي بالاستفادة من الفوائد العديدة لنماذج LLM التوليدية". "لقد أظهرنا أن نفس النموذج يمكنه التحقق وتوليد الحلول، باستخدام التفكير المنطقي قبل التحقق لتعزيز الدقة".

في GenRM، يتم التعبير عن قرار التحقق كرمز. على سبيل المثال، لإنشاء درجة لحل، يستخدم المرجع طلبًا مثل "هل الإجابة صحيحة؟" ويمثل الدرجة كاحتمالية لتوكن نصي (مثل "نعم" أو "لا") استنادًا إلى السياق.

نظرًا لأن التحقق غالبًا ما يتضمن تفكيرًا معقدًا، يمكن أن تستفيد المراجع التوليدية بشكل كبير من تقنيات التحفيز المتقدمة مثل التفكير التسلسلي (CoT)، الذي يشجع النموذج على وضع عملية تفكيره قبل الوصول إلى الإجابة.

يقول الباحثون: "يمكننا تحديد خطوات التفكير البينية أو النقد (CoT) قبل اتخاذ قرار بشأن صحة الحل، مما قد يكشف عن أخطاء دقيقة تفوتها المراجع المباشرة".

يمكن اشتقاق المفاهيم CoT لتدريب نموذج GenRM من مدخلات بشرية أو من LLM آخر. خلال عملية الاستدلال، تنتج GenRM أولاً مفهوم CoT ثم تستخدم احتمالية توكن "نعم" لتحديد درجة الصحة.

لتعزيز دقة المراجع CoT، استخدم الباحثون التصويت بالأغلبية. لقد عيّنوا سلاسل متعددة من CoT وحسبوا متوسط درجة "نعم" عبر جميع العينات، مما يعزز عملية الحساب أثناء الاختبار.

يشرح أغاروال: "يمكن تصور GenRM كمزج بين LLM-as-a-Judge والمراجع التقليدية؛ فهو يمثل LLM مدربًا على بيانات التحقق الخاصة بالنطاق". "لذا، يعتبر GenRM مناسبًا لأي مجال حيث تكون نماذج LLM الجاهزة غير كافية".

GenRM في الممارسة

لتقييم فعالية GenRM، اختبر الباحثون في DeepMind أدائه عبر مجموعة متنوعة من مهام التفكير، بما في ذلك ربط الحروف الأخيرة، وتصنيف الكلمات، ومشاكل الرياضيات. وقاموا بمقارنة GenRM مع الطرق القياسية، بما في ذلك نماذج المكافأة التمييزية، LLM-as-a-Judge، و"الاتساق الذاتي"، حيث يقوم النموذج بتوليد إجابات متعددة واختيار الأكثر تكرارًا.

عبر جميع المهام، تفوق GenRM باستخدام CoT باستمرار على الطرق البديلة بعدة نقاط مئوية، بما في ذلك نماذج المكافأة التمييزية المدربة خصيصًا. في معيار GSM8K للرياضيات، حقق نموذج Gemma-9B المدرب لـ GenRM معدل حل مشاكل قدره 92.8٪، متجاوزًا أداء GPT-4 وGemini 1.5 Pro.

يلاحظ الباحثون: "من خلال دمج توليد الحلول مع التحقق عبر هدف توقع التوكن التالي، يعزز GenRM باستمرار أداء التحقق عبر جميع المهام". "يتضح هذا التحسين لكلا النوعين من المراجع التوليدية المباشرة وCoT، مما يدل على أن تعليم المراجع لتقليد الحلول الصحيحة يثبت عمومًا فائدته".

كشفت التجارب أيضًا أن GenRM يتوسع بشكل إيجابي مع زيادة حجم مجموعة البيانات وسعة النموذج. بالإضافة إلى ذلك، يستمر GenRM مع CoT في إظهار تحسينات عند أخذ عينات من عدد أكبر من الردود، مما يوفر لمطوري تطبيقات LLM مرونة متزايدة للتوازن بين الدقة والتكاليف الحسابية.

يقول أغاروال: "بالمقارنة مع المراجع التقليدية، يمكن أن يتفوق GenRM عليهم باستخدام نفس البيانات من خلال التدريب المشترك على التوليد والتحقق، ويتطلب تدريب GenRM فقط تحسينًا قياسيًا". "ومع ذلك، للاستفادة الكاملة من قدرات GenRM، نحتاج إلى نقد أو مفاهيم تحقق توضح تسمية المكافأة. بالنسبة للبيانات عالية الجودة، قد يتضمن ذلك مدخلات بشرية، لكن الحل الأكثر قابلية للتوسع سيكون عبر مفاهيم الناتجة عن LLM بشكل اصطناعي".

يمكن أن تشمل الاتجاهات المستقبلية لـ GenRM توسيع مفاهيم التحقق الاصطناعية لمهام التوليد المفتوحة، ودمج GenRM في خطوط أنابيب التعلم المعزز، واستخدام إمكانيات LLM المتقدمة مثل التعلم من قليل من الأمثلة، التوليد المعزز بالاسترجاع، ReAct، وتوليد و تنفيذ الأكواد لتعزيز عمليات التحقق أكثر.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles