تعزيز نماذج اللغة الكبيرة (LLMs) بمعرفة تتجاوز بيانات تدريبها يعد أمرًا حيويًا لتطبيقات الشركات. ومن الأساليب البارزة في دمج المعرفة المخصصة للعملاء في LLMs هو جيل معزّز بالاسترجاع (RAG). ومع ذلك، غالبًا ما تفشل الأساليب الأساسية لـ RAG في تلبية المتطلبات.
يتطلب بناء تطبيقات LLM معزّزة بالبيانات مراجعة دقيقة لعدة عوامل. في دراسة حديثة أجراها باحثو Microsoft، تم اقتراح إطار عمل لتصنيف أنواع المهام المختلفة لـ RAG بناءً على نوع البيانات الخارجية المطلوبة وتعقيد التفكير المعني. يشير الباحثون إلى أن "تطبيقات LLM المعزّزة بالبيانات ليست حلاً واحدًا يناسب الجميع". “المتطلبات في العالم الحقيقي، خصوصًا في المجالات المتخصصة، معقدة ويمكن أن تختلف بشكل كبير في علاقتها مع البيانات المقدمة والتفكير المطلوب”.
للتعامل مع هذه التعقيدات، اقترح الباحثون تصنيف استفسارات المستخدمين إلى أربعة مستويات:
- الحقائق الصريحة: استفسارات تتطلب استرجاع حقائق مُصرّح بها مباشرةً من البيانات.
- الحقائق الضمنية: استفسارات تحتاج إلى استنتاج معلومات غير مُصرّح بها، وغالبًا ما تتضمن تفكيرًا أساسيًا.
- أسباب قابلة للتفسير: استفسارات تتطلب فهم وتطبيق قواعد خاصة بالنطاق من موارد خارجية.
- أسباب خفية: استفسارات تحتاج إلى كشف طرق التفكير الضمنية غير المذكورة في البيانات.
تمثل كل مستوى من استفسارات الاستخدام تحديات فريدة وتتطلب حلولًا مخصصة.
فئات تطبيقات LLM المعزّزة بالبيانات
استفسارات الحقائق الصريحة
تركز هذه الاستفسارات على استرجاع معلومات واقعية مُصرّح بها بوضوح في البيانات. تتميز بالاعتماد المباشر على قطع بيانات خارجية محددة. تُستخدم تقنيات RAG الأساسية هنا، حيث يسترجع LLM المعلومات ذات الصلة من قاعدة المعرفة لتوليد رد. ومع ذلك، تطرأ تحديات في كل مرحلة من مراحل خط أنابيب RAG. على سبيل المثال، خلال عملية الفهرسة، يتعين على نظام RAG التعامل مع مجموعات بيانات غير منظمة كبيرة تشمل عناصر متعددة الوسائط مثل الصور والجداول. يمكن أن تساعد نماذج تحليل المستندات متعددة الوسائط ونماذج تضمين البيانات في رسم السياق الدلالي للعناصر النصية وغير النصية في مساحة مشتركة.
في مرحلة استرجاع المعلومات، تكون ملاءمة البيانات المسترجعة أمرًا بالغ الأهمية. يمكن للمطورين مواءمة الاستفسارات مع مخازن الوثائق، باستخدام إجابات مصنّعة لتعزيز دقة الاسترجاع. بالإضافة إلى ذلك، في مرحلة توليد الإجابة، تتيح عملية الضبط الدقيق لـ LLM تمييز المعلومات ذات الصلة وتجاهل الضوضاء من قاعدة المعرفة.
استفسارات الحقائق الضمنية
تتطلب هذه الاستفسارات من LLMs التفكير أبعد من مجرد الاسترجاع. على سبيل المثال، قد يسأل المستخدم: "كم عدد المنتجات التي باعتها شركة X في الربع الماضي؟" أو "ما هي الفروقات الرئيسية بين استراتيجيات شركة X وشركة Y؟" تستدعي هذه الأسئلة الإجابات متعددة الخطوات، وتتطلب بيانات من مصادر متعددة.
تلزم تعقيدات استفسارات الحقائق الضمنية تقنيات RAG متقدمة، مثل دمج الاسترجاع مع سلسلة التفكير (IRCoT) والتفكير المعزز بالاسترجاع (RAT). توفر الرسوم البيانية المعرفية المجمعة مع LLMs طريقة منظمة للتفكير المعقد، تربط بين المفاهيم المتفاوتة بشكل فعال.
استفسارات الأسباب القابلة للتفسير
تتطلب هذه الاستفسارات من LLMs تطبيق قواعد خاصة بالنطاق بالتوازي مع المحتوى الواقعي. يوضح الباحثون أن "استفسارات الأسباب القابلة للتفسير تمثل فئة بسيطة تعتمد على البيانات الخارجية للأسباب". غالبًا ما تتضمن هذه الفئة إرشادات واضحة أو عمليات تفكير ذات صلة بمسائل معينة.
على سبيل المثال، قد يحتاج روبوت خدمة العملاء إلى دمج البروتوكولات الموثقة لمعالجة المرتجعات مع سياق العملاء. يعد دمج هذه الأسباب في LLMs تحديًا، مما يتطلب تقنيات ضبط سريعة تشمل التعلم التعزيزي وتقييمات تحفيزية محسّنة.
استفسارات الأسباب الخفية
تمثل هذه الاستفسارات أكبر تحدٍ، إذ تنطوي على طرق تفكير مضمنة في البيانات ولكن غير مُصرّح بها. على سبيل المثال، قد يحتاج النموذج إلى تحليل البيانات التاريخية لاستخراج أنماط قابلة للتطبيق على مشكلة حالية.
يشير الباحثون إلى أن "التعامل مع استفسارات الأسباب الخفية يتطلب تقنيات تحليل متطورة لفك الشفرات واستخدام الحكمة الكامنة المتضمنة في مصادر البيانات المتباينة".
يمكن أن تشمل الحلول الفعالة لهذه الاستفسارات التعلم ضمن السياق لتدريب LLMs على اختيار واستخراج المعلومات ذات الصلة. قد يكون من الضروري أيضًا ضبط النماذج حسب المجال، مما يمكّن النموذج من الانخراط في التفكير المعقد وتحديد البيانات الخارجية اللازمة.
الآثار المترتبة لبناء تطبيقات LLM
تظهر دراسة Microsoft Research وإطار العمل تطور LLMs في استخدام البيانات الخارجية لتطبيقات عملية، مع إبراز التحديات المعلقة. يمكن للشركات الاستفادة من هذا الإطار لاتخاذ قرارات مستندة حول دمج المعرفة الخارجية في LLMs الخاصة بها. بينما تعالج تقنيات RAG العديد من قيود LLMs الأساسية، يجب على المطورين الوعي بقدرات وقيود الأساليب المختارة، والترقية إلى أنظمة أكثر تعقيدًا حسب الحاجة.