أعلنت Databricks اليوم عن إطلاق أدوات جديدة لتعزيز الجيل المعتمد على الاسترجاع (RAG) ضمن منصة ذكاء البيانات الخاصة بها. تم تصميم هذه الأدوات لمساعدة الشركات في بناء ونشر وصيانة تطبيقات نماذج اللغة الكبيرة (LLM) عالية الجودة، المخصصة لمجموعة متنوعة من حالات الاستخدام.
تتوفر هذه الأدوات الآن في المعاينة العامة، وتتناول التحديات الملحوظة في تطوير تطبيقات RAG جاهزة للإنتاج. حيث تبسط عملية دمج بيانات الأعمال الحقيقية من مصادر متنوعة مع النماذج المناسبة، إضافة إلى تمكين المراقبة الفعالة للتطبيقات لرصد المشكلات مثل السمية التي تؤثر عادةً على نماذج اللغة الكبيرة.
وأكد كرايغ وايلي، مدير أول في قسم المنتجات للذكاء الاصطناعي والتعلم الآلي في Databricks، على أهمية تطوير تطبيقات RAG قائلاً: "تواجه المنظمات صعوبة في تقديم حلول تنتج باستمرار استجابات دقيقة وعالية الجودة مع تنفيذ قيود لمنع النتائج غير المرغوب فيها."
فهم RAG وتحدياته
بينما تكتسب نماذج اللغة الكبيرة شهرة، تعتمد العديد من النماذج الحالية على المعرفة المعتمدة على المعايير، مما يحد من قدرتها على تقديم استجابات آنيّة وذات سياق محدد، خاصةً بالنسبة للاحتياجات الداخلية للأعمال. وتعالج تقنية الجيل المعتمد على الاسترجاع (RAG) هذه القضايا من خلال الاستفادة من مصادر بيانات محددة لتعزيز دقة وموثوقية استجابات النماذج. على سبيل المثال، يمكن أن يساعد نموذج مدرب على بيانات الموارد البشرية الموظفين في مختلف الاستفسارات.
يتطلب RAG عدة مهام معقدة، بما في ذلك جمع وتجهيز البيانات المنظمة وغير المنظمة من مصادر متعددة، واختيار النموذج، وهندسة الطلبات، والرصد المستمر. وغالباً ما يؤدي هذا النهج المجزأ إلى تطبيقات RAG ضعيفة الأداء.
كيف تتصدر Databricks الطريق
تدمج الأدوات الجديدة لـ Databricks عمليات متنوعة، مما يسمح للفرق بتطوير ونشر تطبيقات RAG عالية الجودة بسرعة. وتعمل ميزات مثل البحث المتجهي وتقديم الميزات على القضاء على الحاجة لبناء أنابيب بيانات معقدة، حيث تتزامن البيانات المنظمة وغير المنظمة من جداول Delta بسلاسة مع تطبيق LLM. مما يضمن الوصول إلى أحدث المعلومات التجارية وأكثرها صلة للاستجابات الدقيقة وذات السياق.
وأوضح باتريك ويندل، أحد مؤسسي Databricks ونائب الرئيس للهندسة، مع هانلين تانغ، المدير التقني لشبكات الأعصاب، أن "Unity Catalog تتعقب تلقائياً تسلسل البيانات بين مجموعات البيانات غير المتصلة والاتصال، مما يسهل تصحيح مشكلات جودة البيانات وتعزيز إعدادات التحكم في الوصول لضمان إدارة بيانات أفضل."
علاوة على ذلك، يمكن للمطورين الاستفادة من ملعب الذكاء الاصطناعي الموحد وتقييم MLFlow لتقييم النماذج من مزودين مختلفين، بما في ذلك Azure OpenAI Service وAWS Bedrock، وخيارات مفتوحة المصدر مثل Llama 2 وMPT. يمكّن هذا المرونة الفرق من نشر المشاريع باستخدام النماذج الأكثر أداءً وفي نفس الوقت الأكثر فعالية من حيث التكلفة، مع الاحتفاظ بخيار التحول إلى حلول محسّنة عندما تصبح متاحة.
قدرات مراقبة متقدمة
بعد نشر تطبيق RAG، تُعتبر مراقبة أدائه على نطاق واسع أمرًا حيويًا. تقدم Databricks قدرات مراقبة Lakehouse المدارة بالكامل التي تقوم تلقائيًا بفحص استجابات التطبيقات للسمية، أو الهلوسة، أو أي محتوى غير آمن. تسهم هذه الاكتشافات الاستباقية في توفير معلومات على لوحات التحكم وأنظمة التنبيه، مما يسمح للفرق باتخاذ إجراءات تصحيحية بسرعة. تتكامل هذه الميزة مع تسلسل النموذج ومجموعات البيانات، مما يسهل التعرف السريع على الأخطاء وأسبابها.
نجاح الاعتماد المبكر
على الرغم من أن الأدوات الجديدة قد أُطلقت للتو، إلا أن شركات مثل المورد RV Lippert وEQT Corporation بدأت بالفعل في اختبار قدراتها ضمن منصة ذكاء البيانات من Databricks. شارك كريس نيشنك، الذي يقود جهود البيانات والذكاء الاصطناعي في Lippert، قائلاً: "تُعزز Databricks عمليات مركز الاتصال لدينا من خلال دمج مصادر محتوى متنوعة في بحثنا المتجهي، مما يضمن توفر المعرفة التي يحتاجها الوكلاء في متناول أيديهم. يقدم هذا النهج المبتكر تحسينًا كبيرًا في الكفاءة ودعم العملاء."
داخليًا، تقوم Databricks أيضًا بنشر تطبيقات RAG. ووفقًا لوايلي، فإن فريق تكنولوجيا المعلومات في الشركة يقوم بتجربة بوت Slack لتطبيق RAG للمسؤولين التنفيذيين في الحسابات، وإضافة متصفح لممثلي تطوير المبيعات.
مع تزايد الطلب المتزايد على تطبيقات نماذج اللغة الكبيرة المتخصصة، تخطط Databricks للاستثمار بشكل كبير في مجموعة أدوات RAG الخاصة بها. الهدف هو تمكين العملاء من نشر تطبيقات LLM عالية الجودة على نطاق واسع، مع الالتزام المستمر بالبحث والابتكارات المستقبلية في هذا المجال.