توليد مدعوم بالاسترجاع (RAG) للذكاء الاصطناعي في المؤسسات: نظرة عامة من DataStax
يعتبر توليد مدعوم بالاسترجاع (RAG) عنصرًا حيويًا للاستفادة من الذكاء الاصطناعي التوليدي في بيئات المؤسسات، حيث إن ربط نموذج لغة كبير (LLM) بقاعدة بيانات هو مجرد البداية. تقوم DataStax بمعالجة التعقيدات المرتبطة بـ RAG في بيئات الإنتاج من خلال مجموعة جديدة من التقنيات.
تُعرف DataStax بإصدارتها المدعومة تجاريًا من قاعدة بيانات Apache Cassandra، كما أن DataStax Astra DB تعززت تركيزها على الذكاء الاصطناعي التوليدي وRAG على مدار العام الماضي. ويتضمن ذلك دمج إمكانيات البحث في قواعد بيانات المتجهات وتقديم واجهة برمجة تطبيقات البيانات لتسهيل تطوير تطبيقات RAG.
تقدم RAG في المؤسسات مع Langflow 1.0
حققت DataStax تقدمًا كبيرًا في RAG الخاص بالمؤسسات مع إطلاق Langflow 1.0، مما يمكّن المطورين من إنشاء تدفقات عمل خاصة بـ RAG ووكلاء الذكاء الاصطناعي بشكل أكثر كفاءة. بالإضافة إلى ذلك، يوفر الأداة المحدثة Vectorize نماذج مختلفة من تضمين المتجهات، بينما تجمع RAGStack 1.0 عدة أدوات لدعم عمليات النشر على مستوى المؤسسات.
يقول إد أنوف، المدير التنفيذي للمنتجات في DataStax، إن الهيكل الأساسي لـ RAG قد يبدو بسيطًا، لكن تحقيق الكفاءة على مستوى المؤسسات يعد تحديًا شائعًا. ووصف أنوف ظاهرة "جحيم RAG"، حيث تواجه الشركات نتائج مخيبة للآمال بعد إثباتات المفهوم الناجحة في البداية.
قال أنوف: "تواجه العديد من الشركات صعوبات عند دمج مجموعات البيانات الحية في تطبيقات RAG". تهدف تحديثات DataStax إلى مساعدة المؤسسات في التغلب على هذه التحديات وتنفيذ تطبيقاتها بنجاح.
بناء تطبيقات RAG باستخدام Langflow
في 4 أبريل، استحوذت DataStax على Langflow، الأداة البديهية المبنية على تقنية LangChain مفتوحة المصدر. وقد تم إطلاق Langflow 1.0 هذا الشهر كمنتج مفتوح المصدر، مع مكتبة موسعة من المكونات وتحسينات في التكامل مع عروض DataStax الأخرى.
تتمثل إحدى التقدمات المهمة في اكتمال Turing في Langflow، مما يمكّن من تدفقات منطقية معقدة وشروط داخل التطبيقات. تتضمن هذه الميزة تحسينات في التفرع وإمكانيات صنع القرار، مما يسمح للتطبيقات بالتكيف استنادًا إلى مدخلات مثل تاريخ الدردشة أو سلوك المستخدم. لاحظ أنوف: "تقود هذه التقدمات إلى تحسين تجارب المستخدمين في تطبيقات مثل الوكلاء التفاعليين، مقدمةً صلة وتفاعل أفضل."
دور المتجهات والبيانات غير المهيكلة في RAG
تعد تضمينات المتجهات المخزنة في قاعدة بيانات المتجهات جوهر RAG، حيث تعتبر اختيار نموذج التضمين أمرًا حيويًا. تتيح تقنية Vectorize من DataStax للمستخدمين اختيار مجموعة متنوعة من نماذج التضمين التي تتناسب مع مجموعات بياناتهم، بما في ذلك تلك المقدمة من Azure OpenAI وHugging Face وNVIDIA NeMo.
وضح أنوف: "تأتي هذه النماذج المختلفة مع تحسينات وتنازلات مميزة." وأضاف: "يمكن أن يؤدي اختيار النموذج الصحيح إلى تحسين الأداء بشكل كبير."
لتعزيز دقة تطبيقات RAG بشكل أكبر، تعاونت DataStax مع unstructured.io، التي تُهيكل البيانات غير المهيكلة قبل التحويل إلى متجهات. وأكد أنوف أن هذه التكامل يعزز الدقة والموثوقية عند نشر تطبيقات الذكاء الاصطناعي.
RAGStack 1.0 وإدخال ColBERT
في قلب هذه التطورات تأتي RAGStack 1.0، وهو إطار عمل يركز على المؤسسات ويجمع بين مكونات النظام البيئي للذكاء الاصطناعي مع أدوات DataStax الخاصة. تضيف هذه النسخة ColBERT (تمثيلات BERT السياقية للاسترجاع)، وهو خوارزمية بحث تعزز مطابقة السياق والصلة في تطبيقات RAG.
علق أنوف: "مع ColBERT، الأمر يشبه البحث عن إبرة بين أشياء على شكل إبرة." وأضاف: "يمكنك العثور بثقة على ما تبحث عنه بدلاً من التنقل عبر بيانات غير ذات صلة."
في الختام، تعمل DataStax على إحداث ثورة في كيفية نشر المؤسسات لـ RAG والذكاء الاصطناعي التوليدي، مقدمةً الأدوات اللازمة لتحسين الكفاءة والصلة في تطبيقاتها.