اليوم، أعلنت Databricks عن انعقاد قمتها السنوية للبيانات والذكاء الاصطناعي، مع تقديم تغيير جذري يتمثل في فتح مصدر منصة Unity Catalog، التي تم تطويرها على مدار السنوات الثلاث الماضية لتوفير حل شامل لإدارة البيانات.
كان Unity Catalog في السابق منتجًا ملكيًا، والآن أصبح متاحًا بموجب رخصة Apache 2.0. يسمح هذا التحول للشركات باستخدام البنية التحتية والكود الأساسي لإنشاء وتخصيص قوائمها الخاصة دون تكبد تكاليف من Databricks. بالإضافة إلى ذلك، سيحتوي Unity Catalog على مواصفات OpenAPI ودعم الخادم والعميل.
تأتي هذه الإعلانات بعد فترة قصيرة من مبادرة مماثلة من جانب Snowflake، المنافس الرئيسي لـ Databricks، الذي قدم مؤخرًا Polaris Catalog، وهو نظام مفتوح لقوائم البيانات للمؤسسات. ومع ذلك، بينما قامت Databricks على الفور بفتح مصدر Unity Catalog (مع عرض الكود بشكل مباشر بواسطة ماتيه زهاريا، كبير مسؤولي التكنولوجيا في Databricks)، سيتم فتح مصدر Polaris خلال الـ 90 يومًا القادمة.
Unity Catalog OSS: تمكين التحكم بيد العملاء
أطلقت Databricks Unity Catalog كأداة ملكية لإدارة البيانات تهدف إلى إدارة الوصول إلى بيانات وأصول الذكاء الاصطناعي داخل نظامها البيئي. تشمل الميزات إدارة مركزية للوصول إلى البيانات، والتدقيق، واكتشاف البيانات، وتتبع النسب، ومشاركة البيانات بشكل آمن.
ومع ذلك، كانت طبيعتها مغلقة المصدر تعوق قدرة المستخدمين على دمجها مع تقنيات أخرى، خصوصًا محركات الاستعلام المتوافقة مع Apache Iceberg أو Hudi، وهما تنسيقين مفتوحين شائعين. إدراكًا لهذه القيود، طورت Databricks العام الماضي تنسيق Delta Lake Universal Format (UniForm). هذه الميزة الجديدة تولد تلقائيًا البيانات الوصفية اللازمة لـ Apache Iceberg وHudi، مع توحيد تنسيقات الجداول في نسخة واحدة يمكن الوصول إليها من أي محرك مدعوم.
مع فتح مصدر Unity Catalog وطرح واجهات برمجة التطبيقات المفتوحة (APIs)، تهدف Databricks إلى توفير واجهة عالمية تتعامل مع جميع تنسيقات البيانات المفتوحة الثلاثة من خلال UniForm، مما يعزز التوافق بين مختلف محركات الاستعلام والأدوات ومنصات السحابة.
وأوضح جويل مينك، نائب رئيس تسويق المنتجات في Databricks، "مع Unity Catalog المفتوح المصدر، يمكن للعملاء الحاليين في Databricks الاستفادة من بيئة موسعة من محركات Delta Lake وApache Iceberg المتوافقة، مما يمنحهم المرونة للوصول إلى بياناتهم المدارة وأصول الذكاء الاصطناعي باستخدام الأدوات التي يفضلونها. تسمح النشر الحالية باستخدام نفس واجهات برمجة التطبيقات المفتوحة، مما يتيح للعملاء الخارجيين قراءة جميع الجداول، والسعات، والدوال في Unity Catalog مع التحكمات الحالية."
يضمن Unity Catalog أيضًا التوافق مع منصات السحابة الكبرى (Microsoft Azure، AWS، GCP، وSalesforce) ومحركات الحوسبة مثل Apache Spark وPresto وTrino وغيرها. كما يدعم مجموعة متنوعة من منصات البيانات والذكاء الاصطناعي، بما في ذلك dbt Labs وConfluent وFivetran وGranica وغيرها.
بالإضافة إلى دعم التنسيقات والمحركات المفتوحة، يتوافق الكتالوج مع معايير واجهة Iceberg REST Catalog وHive Metastore (HMS)، مما يعزز الحوكمة المتماسكة عبر البيانات، سواء كانت جدولية أو غير جدولية، وأصول الذكاء الاصطناعي. تسهل هذه الميزة الإدارة على نطاق واسع لمجموعة متنوعة من أنواع البيانات، بما في ذلك نماذج التعلم الآلي وأدوات الذكاء الاصطناعي التوليدية.
كيف يقارن Unity Catalog مع Polaris Catalog من Snowflake؟
مثل Unity Catalog، يركز Polaris Catalog من Snowflake على تنفيذ قوائم مفتوحة لتعزيز التوافق. ومع ذلك، يقتصر Polaris على البيانات المهيأة لـ Apache Iceberg، بينما يدعم Unity Catalog OSS البيانات بأي تنسيق، بما في ذلك Iceberg وDelta وHudi وParquet وCSV وJSON.
علاوة على ذلك، يمتد عرض Databricks ليشمل مجموعات بيانات غير هيكلية (سعات) وأدوات ذكاء اصطناعي، مما يمكّن المؤسسات من إدارة الصور والوثائق والملفات الأخرى الضرورية لتطبيقات الذكاء الاصطناعي التوليدي، وهي ميزة غير متاحة مع Polaris.
وأضاف مينك، "لا يمكن الوصول إلى الجداول بتنسيق التخزين المملوك من Snowflake عبر Polaris، بينما تتيح واجهات برمجة التطبيقات لـ Unity Catalog OSS للعملاء الخارجيين قراءة جميع الجداول والسعات والدوال في كتالوج Databricks Unity."
على مستوى العالم، تعتمد أكثر من 10,000 منظمة، بما في ذلك NASDAQ وRivian وAT&T، على Unity Catalog داخل منصة Databricks للذكاء الاصطناعي. من المتوقع أن يؤثر الانتقال إلى المصدر المفتوح بشكل كبير على معدلات الاعتماد.
تستمر قمة بيانات وذكاء تكنلوجيا Databricks من 10 يونيو إلى 13 يونيو 2024.