الحصول على البيانات من مصدرها لاستخدامها الفعّال في التحليلات والذكاء الاصطناعي قد لا يكون بالأمر السهل. تلعب تقنية تنظيم البيانات، مثل مشروع Apache Airflow مفتوح المصدر، دورًا أساسيًا في تسهيل تدفقات البيانات التي تُقدّم المعلومات في الأماكن المطلوبة.
تُعلن اليوم عن إصدار Apache Airflow 2.10، وهو أول تحديث كبير للمشروع منذ الإصدار 2.9 في أبريل. تقدم النسخة الجديدة تنفيذًا هجينيًا، مما يسمح للمنظمات بتحسين تخصيص الموارد لمختلف الأحمال، من استعلامات SQL البسيطة إلى مهام تعلم الآلة المعقدة. كما توفر قدرات متطورة لتتبع خط البيانات، مما يُعزز الرؤية في تدفقات البيانات، وهو أمر ضروري للحوكمة والامتثال.
تقوم شركة Astronomer، البائع التجاري الرائد وراء Apache Airflow، أيضًا بتحديث منصتها Astro لدمج أداة dbt-core مفتوحة المصدر. توحد هذه العملية تنظيم البيانات وعمليات التحويل على منصة واحدة.
تهدف هذه التحديثات بشكل جماعي إلى تبسيط عمليات البيانات وجسر الفجوة بين سير العمل التقليدي و التطبيقات الناشئة للذكاء الاصطناعي، موفرةً للمؤسسات طريقة أكثر مرونة لتنظيم البيانات تُعالج تعقيدات بيئات البيانات المتنوعة وعمليات الذكاء الاصطناعي.
علق جوليان لا نيف، المدير التقني لشركة Astronomer، قائلاً: "عند اعتماد التنظيم، الأمر يتعلق بتنسيق الأنشطة على طول سلسلة إمداد البيانات بالكامل وضمان رؤية مركزية."
كيفية تحسين Airflow 2.10 لتنظيم البيانات باستخدام التنفيذ الهجين
أحد التحسينات الكبيرة في Airflow 2.10 هو إدخال التنفيذ الهجين. سابقًا، كان يتعين على مستخدمي Airflow اختيار وضع تنفيذ واحد لنشرهم بالكامل، عادةً إما مجموعة Kubernetes أو منفذ Celery. تشتهر Kubernetes بالتعامل مع المهام المعقدة التي تتطلب حسابًا مكثفًا، بينما يعد Celery أكثر كفاءة بالنسبة للمهام الأخف.
ومع ذلك، فإن تدفقات البيانات الواقعية غالبًا ما تشمل مزيجًا من أنواع الأحمال. أشار لا نيف إلى أنه قد تحتاج منظمة ما إلى تنفيذ استعلام SQL بسيط جنبًا إلى جنب مع سير عمل تعلم آلة معقد في نفس النشر. الآن، يتيح التنفيذ الهجين هذه المرونة، مما يسمح لكل مكون من مكونات تدفق البيانات بأن يُحسن لمستوى الموارد الحسابية المناسب.
أضاف لا نيف، "اختيار أوضاع التنفيذ على مستوى التدفق والمهام، بدلاً من النمط الموحد عبر النشر بالكامل، يوفر مستوى جديدًا من المرونة والكفاءة لمستخدمي Airflow."
أهمية تتبع خط البيانات في تنظيم البيانات الموجه للذكاء الاصطناعي
يعد تتبع خط البيانات - فهم أصل البيانات ومسارها - أمرًا حيويًا للتحليلات التقليدية و أحمال الذكاء الاصطناعي الناشئة. يعد تتبع الخطوط القوي ضروريًا في الذكاء الاصطناعي وتعلم الآلة، حيث يمكن أن يؤثر جودة وأصل البيانات بشكل كبير على النتائج.
قبل إصدار Airflow 2.10، كانت هنالك قيود على تتبع خط البيانات. مع الميزات الجديدة، يُعزز Airflow الآن قدرته على التقاط الاعتمادات وتدفقات البيانات داخل التدفقات، حتى بالنسبة لشفرة بايثون المخصصة. يعزز هذا التحسين في تتبع الخطوط الثقة في أنظمة الذكاء الاصطناعي، حيث قال لا نيف، "عنصر رئيسي في أي تطبيق للذكاء الاصطناعي اليوم هو الثقة." يحتاج المستخدمون إلى ضمان بأن المخرجات التي تنتجها أنظمة الذكاء الاصطناعي موثوقة. يوفر الخط الواضح أثرًا يمكن تدقيقه يوثق كيفية جمع البيانات، وتحويلها، واستخدامها في تدريب النماذج، مما يعزز حوكمة البيانات والأمان حول المعلومات الحساسة.
النظرة المستقبلية لـ Airflow 3.0
مع استمرار أهمية حوكمة البيانات والأمان والخصوصية في الازدياد، يتوقع لا نيف بالفعل ما يخبئه المستقبل لـ Airflow مع الإصدار 3.0. يهدف هذا الإصدار القادم إلى تحديث Airflow لعصر الذكاء الاصطناعي التوليدي، مع أولويات تشمل جعل المنصة أكثر استقلالية عن اللغة، مما يسمح للمستخدمين بكتابة المهام بأي لغة برمجة، وتعزيز وعي البيانات من خلال التركيز أكثر على إدارة تدفقات البيانات بدلاً من مجرد تنظيم العمليات.
أكد لا نيف، "نريد التأكد من أن Airflow تظل المعايير التنظيمية خلال السنوات العشر إلى الخامسة عشرة القادمة."