تقييم الإنسان لنماذج اللغة الكبيرة: الحاجة إلى الابتكار
لطالما كان تقييم الإنسان المعيار الذهبي لقياس جودة ودقة نماذج اللغة الكبيرة، خاصة في المهام مفتوحة النهاية مثل الكتابة الإبداعية والترميز. ومع ذلك، فإن هذه الطريقة غالبًا ما تكون بطيئة ومكلفة وتتطلب خبرة متخصصة.
المقيِّم الذاتي التعلم
طور الباحثون في Meta FAIR نهجًا مبتكرًا يسمى "المقيِّم الذاتي التعلم"، الذي يستخدم البيانات الاصطناعية لتدريب مقيمي نماذج اللغة الكبيرة من دون الحاجة إلى توضيحات بشرية. ورغم وجود بعض القيود، يعد هذا الأسلوب بتحسين كفاءة وسعة تقييم نماذج اللغة الكبيرة، خصوصًا للشركات التي تهدف إلى بناء نماذج مخصصة.
تحديات تقييم نماذج اللغة الكبيرة
غالبًا ما تعمل نماذج اللغة الكبيرة كمقيمين في مواءمة نماذج أخرى مع تفضيلات البشر أو لتعزيز أدائها خلال التدريب. هذا أمر حاسم في المهام التي تتطلب نتائج متعددة صحيحة، وهو شائع في السيناريوهات الإبداعية والتعليمية المعقدة. تقليديًا، يتطلب تدريب مقيمي نماذج اللغة الكبيرة الدقيقة بيانات موضَّحة بشكل واسع، وهي عملية مكلفة واستغراقًا للوقت تعرقل التطور السريع لتطبيقات تعتمد على نماذج اللغة الكبيرة.
كيفية عمل المقيِّم الذاتي التعلم
يتعامل المقيِّم الذاتي التعلم مع هذه المشكلة من خلال إزالة الحاجة إلى بيانات موضَّحة بشريًا. يعتمد على مفهوم "نموذج اللغة كقاضي"، حيث يتلقى المدخلات وإجابتين محتملتين ومقياس تقييم لتحديد أي الاستجابتين أعلى جودة من خلال إنشاء سلسلة من التفكير.
تبدأ العملية بنموذج لغة أساسي ومجموعة كبيرة من التعليمات التي كتبها البشر وغير موصوفة، والتي تُستخدم عادةً في أنظمة الإنتاج. يختار المقيِّم مجموعة من التعليمات من هذه المجموعة غير المنقحة وينشئ أزواجًا من الإجابات: واحدة "مختارة" على أنها عالية الجودة والأخرى "مرفوضة".
ثم يتم تدريب المقيِّم بشكل تكراري. في كل تكرار، يتم عينة عدة سلاسل تفكير وقواعد قضاء كنموذج لغة. تشمل مجموع البيانات التدريبية سلاسل التفكير الصحيحة، والتي تتكون من المدخلات والإجابات الصحيحة والخاطئة وسلاسل الحكم، مما يؤدي إلى تحسين النموذج من أجل التكرارات اللاحقة.
اختبار المقيِّم الذاتي التعلم
بدأ الباحثون اختبار المقيِّم الذاتي التعلم باستخدام نموذج Llama 3-70B-Instruct واستعملوا مجموعة بيانات WildChat، مع اختيار أكثر من 20,000 مثال من فئات التفكير. قاموا أيضًا باستكشاف مجموعات بيانات ومهام أخرى، بما في ذلك البرمجة ومشكلات الرياضيات، مما سمح لأنبوب التعليم الذاتي بتوليد الإجابات الكاملة ومجموعة التدريب بشكل مستقل.
أظهرت تجاربهم أن المقيِّم الذاتي التعلم حسن بشكل كبير من دقة النموذج الأساسي على معيار RewardBench، وزاد أدائه من 75.4% إلى 88.7% على مدار خمسة تكرارات، من دون أي توضيحات بشرية. هذه الدقة تعادل، وفي بعض الحالات تتجاوز، النماذج المدربة على بيانات موضَّحة بشريًا، حتى أنها تفوقت على بعض النماذج الخاصة. تم ملاحظة تحسينات مشابهة على معيار MT-Bench، الذي يقيم أداء نماذج اللغة الكبيرة في المحادثات متعددة الجولات.
التداعيات على الشركات
يتماشى هذا البحث مع الاتجاه المتزايد لاستخدام نماذج اللغة الكبيرة في دوائر تحسين ذاتية آلية، مما يقلل من الجهد اليدوي في إنشاء نماذج ذات أداء عالٍ ويسهل تطوير تطبيقات الذكاء الاصطناعي بشكل أكثر قابلية للتوسع. يعد المقيِّم الذاتي التعلم مفيدًا بشكل خاص للشركات التي تمتلك كميات كبيرة من البيانات المؤسسية غير الموصوفة والتي تسعى إلى تنقيح النماذج دون الحاجة إلى توضيح يدوي كثيف.
ومع ذلك، من الضروري الاعتراف ببعض القيود. يعتمد هذا النهج على نموذج أساسي أولي مُعد وفقًا للتعليمات ومتوافق مع تفضيلات البشر. استخدم الباحثون نموذج Mixtral 8x22B كنموذج أولي لمجموعة بيانات التدريب، مما يبرز الحاجة لاختيار دقيق للنماذج الأساسية والأولية وفقًا للبيانات والمهام المحددة.
قد لا تعكس المعايير القياسية بالكامل قدرات وحدود نماذج اللغة الكبيرة. علاوة على ذلك، فإن الحلقات الآلية الكاملة التي تعتمد فقط على نماذج اللغة الكبيرة للتقييم الذاتي قد تخاطر بتحسين المعايير بينما تعاني من الأداء في التطبيقات الواقعية. يجب على الشركات إجراء اختبارات يدوية في مراحل التدريب المختلفة لضمان تلبية النماذج لمعايير أدائها المرجوة.