باحثو DeepMind يكشفون عن قدرات تعلم مذهلة في نماذج اللغة الطويلة السياق

Home أخبار الذكاء الاصطناعي باحثو DeepMind يكشفون عن قدرات تعلم مذهلة في نماذج اللغة الطويلة السياق

Updated on أبريل 24 2024

في السنوات الأخيرة، تطورت النماذج اللغوية الكبيرة (LLMs) من معالجة بضع مئات من الكلمات إلى إدارة محتوى يعادل عدة كتب في وقت واحد. هذه السعة الموسعة، المعروفة باسم "نافذة السياق"، تفتح آفاقًا جديدة للتطبيقات والحالات التي كانت تتطلب في السابق جهودًا هندسية كبيرة.

تدرس دراسة حديثة قام بها باحثون في Google DeepMind قدرات التعلم في السياق "الكثير من الأمثلة" للنماذج اللغوية الكبيرة ذات نوافذ السياق الممتدة. تشير النتائج إلى أنه من خلال تضمين مئات أو حتى آلاف من أمثلة التدريب ضمن طلب واحد، يمكن تحسين أداء النموذج بشكل ملحوظ، بينما كانت هذه التحسينات تتطلب سابقًا تعديلًا دقيقًا.

التعلم في السياق القليل مقابل الكثير

يمكن لنموذج التعلم في السياق ICL أن يتعلم مهام جديدة باستخدام الأمثلة المقدمة أثناء الاستدلال. يتضمن ذلك تقديم طلب يحتوي على عدة أمثلة محلولة مع المشكلة المراد معالجتها. تقليديًا، كان يُشار إلى هذا النوع من التعلم باسم "التعلم القليل من الأمثلة".

بخلاف التعديل الدقيق، الذي يعدل معلمات النموذج، فإن ICL سهل الاستخدام وأكثر وصولاً؛ ومع ذلك، كان محدودًا من قبل نافذة السياق للنموذج. على سبيل المثال، كان لدى GPT-3 نافذة سياق تبلغ حوالي 2000 توكن، مما يحد من عدد الأمثلة التي يمكن أن تتناسب مع الطلب.

ومع ذلك، يمكن للنماذج الحالية معالجة أكثر من 100,000 توكن، بينما يمكن لنماذج مثل Gemini 1.5 Pro معالجة أكثر من مليون توكن، مما يسمح بمئات أو آلاف من الأمثلة في كل طلب.

في دراستهم، فحص باحثو DeepMind تأثير ICL الكثير من الأمثلة على أداء النماذج اللغوية الكبيرة عبر مجموعة متنوعة من المهام، بما في ذلك حل المسائل الرياضية، والإجابة على الأسئلة، ونمذجة المكافآت، وترجمة اللغات ذات الموارد المحدودة، والتخطيط، وتحليل المشاعر. احتوت بعض الطلبات على ما يصل إلى 8192 مثالًا، وأظهرت النتائج أن الأداء يتحسن مع إضافة المزيد من الأمثلة. في مهام الترجمة، حقق استخدام ICL الطويل على Gemini Pro نتائج قياسية في الكردية والتاميلية. في مهام التلخيص، وصل أداء ICL الكثير من الأمثلة إلى مستوى مشابه للنماذج المتخصصة المدربة بدقة، حيث بلغت الفعالية القصوى فقط عندما توسعت الأمثلة في السياق إلى مئات الآلاف من التوكنات.

تعزيز ICL والتعلم غير المراقب

تتمثل التحديات الرئيسية لاستخدام ICL الكثير من الأمثلة في الحاجة إلى كميات كبيرة من الأمثلة البشرية عالية الجودة، خاصة في مهام التفكير. يقترح الباحثون استراتيجيتين لتقليل الاعتماد على البيانات التي ينتجها البشر.

الاستراتيجية الأولى، "تعزيز ICL"، تستبدل الأمثلة التي أنشأها الإنسان بالعناصر التي ينتجها النموذج. ينشئ النموذج تفسيرات متعددة لمشكلة معينة باستخدام طلب سلسلة تفكير قليل المثال أو بلا مثال. بمجرد التحقق منها من خلال آليات تؤكد الإجابات الصحيحة، تشكل هذه الاستجابات مجموعة بيانات ICL تتكون من أزواج المشكلة/التفسير.

تستفيد الطريقة الثانية، "تعلم غير مراقب"، من المعرفة الفطرية للنموذج بالمشكلة. تتضمن هذه الطريقة تقديم طلب يحتوي على قائمة من المشاكل غير المحلولة إلى جانب طلب بلا مثال أو قليل المثال لمشكلة هدف، مما يلغي الحاجة إلى إجابات من تأليف البشر. يفترض الباحثون أنه عندما يمتلك LLM المعرفة الضرورية لحل مهمة ما، فإن تقديم السياق المناسب يساعده في التركيز على المفاهيم الداخلية اللازمة لحل المشاكل.

يؤكد الباحثون أن كل من التفسيرات التي أنشأها النموذج والطلبات الخاصة بالمشاكل فقط يمكن أن تقلل من الاعتماد على الأمثلة التي ينتجها البشر.

تكييف سلوك النموذج

كشفت الدراسة أيضًا أن ICL الكثير من الأمثلة يمكن أن يتغلب على تحيزات التمهيد السابقة ويفهم بفاعلية المهام التي لا تتعلق بالتنبؤ باللغة الطبيعية حيث قد تواجه ICL القليل من الأمثلة صعوبة. على سبيل المثال، قام الباحثون بتغيير تسميات مجموعة بيانات تحليل المشاعر لتعارض تحيزات المشاعر التي اكتسبها النموذج أثناء التدريب، وأظهرت تجاربهم أنه مع إضافة المزيد من أمثلة ICL، تحسن الأداء بشكل كبير، ليقترب تقريبًا من أداء التسميات الافتراضية.

علاوة على ذلك، تم استخدام ICL الكثير من الأمثلة بنجاح لإعادة تكوين النموذج لتصنيف خطي وازدواجية تسلسلية — وهي مهام عادة ما تكون تحديًا دون تدريب مستهدف. يوضح هذا إمكانيات التعلم بالكثير من الأمثلة للتكيف مع مهام ومجالات جديدة قد لا تتماشى مع بيانات تدريب LLM.

تأثيرات على المؤسسات

بينما تسعى مختبرات الذكاء الاصطناعي لتمديد نوافذ سياق LLMs، يجادل بعض الخبراء بأن التعديل الدقيق وتقنيات أخرى مثل تكامل الاسترجاع المتزايد (RAG) قد لا تكون ضرورية بعد الآن. يمكن للمؤسسات ببساطة صياغة طلبات تحتوي على معلومات ملائمة وأمثلة وتعليمات المهام.

ومع ذلك، فإن ICL الكثير من الأمثلة ليس قابلاً للتوسع حاليًا. بالنسبة لتطبيقات LLM التي تتلقى عشرات الملايين من الطلبات يوميًا، فإن تمديد كل طلب ببضع مئات من الأمثلة قد يؤثر بشكل كبير على السرعة وتكاليف الاستدلال.

لذا، يمكن أن يكون ICL الكثير من الأمثلة أداة قيمة خلال مراحل الاستكشاف والنمذجة لتطبيقات LLM، مما يتيح للمطورين تجريب تقنيات هندسة الطلبات المختلفة دون قيود نافذة السياق. ومع ذلك، سيعتمد التوسع الفعال للمنتجات على تقليل استهلاك التوكنات واستخدام نماذج أصغر وأسرع وأكثر توفيرًا للتكاليف.

أمبليفاير تكشف عن حلول الأمان المدعومة بالذكاء الاصطناعي "الذاتية الشفاء" للشركات: تطور من وضع التخفي لتحويل مشهد الأمن السيبراني

أوتو ألين تتوجه بعيداً عن أرميلا لتقديم منصة الأمان الذكية 'سايدكار' المبتكرة تعتمد على الذكاء الاصطناعي.

Most people like

Legalese Decoder

15.1K

تقوم تقنية الذكاء الاصطناعي بتحليل وتبسيط الوثائق القانونية، مما يعزز وضوحها وسهولة الوصول إليها للمستخدمين.

مُفسر اللغة القانونية Legal Assistant

Doc2Lang

21.5K

خدمات ترجمة مستندات سريعة ودقيقة تلبي جميع احتياجاتك.

ترجمة ملفات الوثائق AI Document Extraction

BiGe AIPPT

65.1K

هل سئمت من قضاء ساعات طويلة في إعداد عروض PowerPoint؟ اكتشف الأداة المبتكرة لإنشاء PPT المدعومة بالذكاء الاصطناعي التي تبسط عملية تقديمك. هذه التكنولوجيا الثورية تستغل الذكاء الاصطناعي لمساعدتك في تصميم شرائح جذابة بسرعة وسهولة، مما يتيح لك التركيز على توصيل رسالتك. ارتقِ بعروضك ووفّر وقتًا ثمينًا مع هذا الحل البديهي المصمم لجميع المحترفين الساعين لتعزيز مهاراتهم في التواصل.

مدعوم بالذكاء الاصطناعي AI Presentation Generator

Prompton

72.6K

اكتشف برومبتون، منصة مبتكرة لرسم الصور بالذكاء الاصطناعي تقدم مجموعة متنوعة من خدمات التصميم المخصصة لاحتياجاتك الإبداعية.

توضيح الذكاء الاصطناعي Image to Image

Find AI tools in YBX