باحثو DeepMind يكشفون عن قدرات تعلم مذهلة في نماذج اللغة الطويلة السياق

في السنوات الأخيرة، تطورت النماذج اللغوية الكبيرة (LLMs) من معالجة بضع مئات من الكلمات إلى إدارة محتوى يعادل عدة كتب في وقت واحد. هذه السعة الموسعة، المعروفة باسم "نافذة السياق"، تفتح آفاقًا جديدة للتطبيقات والحالات التي كانت تتطلب في السابق جهودًا هندسية كبيرة.

تدرس دراسة حديثة قام بها باحثون في Google DeepMind قدرات التعلم في السياق "الكثير من الأمثلة" للنماذج اللغوية الكبيرة ذات نوافذ السياق الممتدة. تشير النتائج إلى أنه من خلال تضمين مئات أو حتى آلاف من أمثلة التدريب ضمن طلب واحد، يمكن تحسين أداء النموذج بشكل ملحوظ، بينما كانت هذه التحسينات تتطلب سابقًا تعديلًا دقيقًا.

التعلم في السياق القليل مقابل الكثير

يمكن لنموذج التعلم في السياق ICL أن يتعلم مهام جديدة باستخدام الأمثلة المقدمة أثناء الاستدلال. يتضمن ذلك تقديم طلب يحتوي على عدة أمثلة محلولة مع المشكلة المراد معالجتها. تقليديًا، كان يُشار إلى هذا النوع من التعلم باسم "التعلم القليل من الأمثلة".

بخلاف التعديل الدقيق، الذي يعدل معلمات النموذج، فإن ICL سهل الاستخدام وأكثر وصولاً؛ ومع ذلك، كان محدودًا من قبل نافذة السياق للنموذج. على سبيل المثال، كان لدى GPT-3 نافذة سياق تبلغ حوالي 2000 توكن، مما يحد من عدد الأمثلة التي يمكن أن تتناسب مع الطلب.

ومع ذلك، يمكن للنماذج الحالية معالجة أكثر من 100,000 توكن، بينما يمكن لنماذج مثل Gemini 1.5 Pro معالجة أكثر من مليون توكن، مما يسمح بمئات أو آلاف من الأمثلة في كل طلب.

في دراستهم، فحص باحثو DeepMind تأثير ICL الكثير من الأمثلة على أداء النماذج اللغوية الكبيرة عبر مجموعة متنوعة من المهام، بما في ذلك حل المسائل الرياضية، والإجابة على الأسئلة، ونمذجة المكافآت، وترجمة اللغات ذات الموارد المحدودة، والتخطيط، وتحليل المشاعر. احتوت بعض الطلبات على ما يصل إلى 8192 مثالًا، وأظهرت النتائج أن الأداء يتحسن مع إضافة المزيد من الأمثلة. في مهام الترجمة، حقق استخدام ICL الطويل على Gemini Pro نتائج قياسية في الكردية والتاميلية. في مهام التلخيص، وصل أداء ICL الكثير من الأمثلة إلى مستوى مشابه للنماذج المتخصصة المدربة بدقة، حيث بلغت الفعالية القصوى فقط عندما توسعت الأمثلة في السياق إلى مئات الآلاف من التوكنات.

تعزيز ICL والتعلم غير المراقب

تتمثل التحديات الرئيسية لاستخدام ICL الكثير من الأمثلة في الحاجة إلى كميات كبيرة من الأمثلة البشرية عالية الجودة، خاصة في مهام التفكير. يقترح الباحثون استراتيجيتين لتقليل الاعتماد على البيانات التي ينتجها البشر.

الاستراتيجية الأولى، "تعزيز ICL"، تستبدل الأمثلة التي أنشأها الإنسان بالعناصر التي ينتجها النموذج. ينشئ النموذج تفسيرات متعددة لمشكلة معينة باستخدام طلب سلسلة تفكير قليل المثال أو بلا مثال. بمجرد التحقق منها من خلال آليات تؤكد الإجابات الصحيحة، تشكل هذه الاستجابات مجموعة بيانات ICL تتكون من أزواج المشكلة/التفسير.

تستفيد الطريقة الثانية، "تعلم غير مراقب"، من المعرفة الفطرية للنموذج بالمشكلة. تتضمن هذه الطريقة تقديم طلب يحتوي على قائمة من المشاكل غير المحلولة إلى جانب طلب بلا مثال أو قليل المثال لمشكلة هدف، مما يلغي الحاجة إلى إجابات من تأليف البشر. يفترض الباحثون أنه عندما يمتلك LLM المعرفة الضرورية لحل مهمة ما، فإن تقديم السياق المناسب يساعده في التركيز على المفاهيم الداخلية اللازمة لحل المشاكل.

يؤكد الباحثون أن كل من التفسيرات التي أنشأها النموذج والطلبات الخاصة بالمشاكل فقط يمكن أن تقلل من الاعتماد على الأمثلة التي ينتجها البشر.

تكييف سلوك النموذج

كشفت الدراسة أيضًا أن ICL الكثير من الأمثلة يمكن أن يتغلب على تحيزات التمهيد السابقة ويفهم بفاعلية المهام التي لا تتعلق بالتنبؤ باللغة الطبيعية حيث قد تواجه ICL القليل من الأمثلة صعوبة. على سبيل المثال، قام الباحثون بتغيير تسميات مجموعة بيانات تحليل المشاعر لتعارض تحيزات المشاعر التي اكتسبها النموذج أثناء التدريب، وأظهرت تجاربهم أنه مع إضافة المزيد من أمثلة ICL، تحسن الأداء بشكل كبير، ليقترب تقريبًا من أداء التسميات الافتراضية.

علاوة على ذلك، تم استخدام ICL الكثير من الأمثلة بنجاح لإعادة تكوين النموذج لتصنيف خطي وازدواجية تسلسلية — وهي مهام عادة ما تكون تحديًا دون تدريب مستهدف. يوضح هذا إمكانيات التعلم بالكثير من الأمثلة للتكيف مع مهام ومجالات جديدة قد لا تتماشى مع بيانات تدريب LLM.

تأثيرات على المؤسسات

بينما تسعى مختبرات الذكاء الاصطناعي لتمديد نوافذ سياق LLMs، يجادل بعض الخبراء بأن التعديل الدقيق وتقنيات أخرى مثل تكامل الاسترجاع المتزايد (RAG) قد لا تكون ضرورية بعد الآن. يمكن للمؤسسات ببساطة صياغة طلبات تحتوي على معلومات ملائمة وأمثلة وتعليمات المهام.

ومع ذلك، فإن ICL الكثير من الأمثلة ليس قابلاً للتوسع حاليًا. بالنسبة لتطبيقات LLM التي تتلقى عشرات الملايين من الطلبات يوميًا، فإن تمديد كل طلب ببضع مئات من الأمثلة قد يؤثر بشكل كبير على السرعة وتكاليف الاستدلال.

لذا، يمكن أن يكون ICL الكثير من الأمثلة أداة قيمة خلال مراحل الاستكشاف والنمذجة لتطبيقات LLM، مما يتيح للمطورين تجريب تقنيات هندسة الطلبات المختلفة دون قيود نافذة السياق. ومع ذلك، سيعتمد التوسع الفعال للمنتجات على تقليل استهلاك التوكنات واستخدام نماذج أصغر وأسرع وأكثر توفيرًا للتكاليف.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles