Heute hat Databricks seinen jährlichen Data and AI Summit mit einer bedeutenden Veränderung eröffnet: Die Plattform Unity Catalog wird jetzt als Open Source bereitgestellt. Seit drei Jahren entwickelt, bietet sie eine umfassende Lösung für das Datenmanagement.
Unity Catalog, ehemals ein proprietäres Angebot, steht nun unter der Apache 2.0 Lizenz zur Verfügung. Dieser Schritt ermöglicht Unternehmen, die zugrunde liegende Architektur und den Code zu nutzen, um eigene Kataloge zu erstellen und anzupassen, ohne zusätzliche Kosten für Databricks zu verursachen. Zudem wird Unity Catalog eine OpenAPI-Spezifikation sowie Server- und Klientenunterstützung beinhalten.
Diese Ankündigung folgt dicht auf einer ähnlichen Initiative von Snowflake, dem Hauptkonkurrenten von Databricks, der kürzlich das Polaris Catalog - ein eigenes offenes Katalogsystem für Unternehmen - eingeführt hat. Während Databricks Unity Catalog sofort als Open Source veröffentlichte (mit einer Live-Demonstration des Codes durch CTO Matei Zaharia), wird das Polaris Katalogsystem in den nächsten 90 Tagen open-sourced.
Unity Catalog OSS: Kundenbefugnisse stärken
Ursprünglich als proprietäres Datenmanagement-Tool eingeführt, wurde Unity Catalog entwickelt, um den Zugriff auf Daten und KI-Ressourcen im Ökosystem zu verwalten. Zu den Funktionen gehörten unter anderem zentrales Datenzugriffsmanagement, Auditing, Datenentdeckung, Nachverfolgung von Datenherkünften und sicheres Daten-Sharing.
Seine geschlossene Architektur schränkte jedoch die Integration mit anderen Technologien ein, insbesondere mit Abfrage-Engines, die mit Apache Iceberg oder Hudi kompatibel sind — zwei weit verbreitete offene Tabellenformate. Um dieses Limit zu überwinden, entwickelte Databricks im vergangenen Jahr das Delta Lake Universal Format (UniForm). Diese neue Funktion generiert automatisch die erforderlichen Metadaten für Apache Iceberg und Hudi und vereint Tabellenformate in einer einzigen Kopie, die von jeder unterstützten Engine zugänglich ist.
Mit der Open-Sourcing von Unity Catalog und der Einführung von offenen APIs beabsichtigt Databricks, eine universelle Schnittstelle bereitzustellen, die alle drei offenen Datenformate über UniForm unterstützt. Diese Entwicklung verbessert die Kompatibilität zwischen verschiedenen Abfrage-Engines, Tools und Cloud-Plattformen.
Joel Minnick, VP of Product Marketing bei Databricks, erklärte: „Mit dem Open-Source Unity Catalog können aktuelle Databricks-Kunden auf ein breites Ökosystem von Delta Lake und Apache Iceberg-kompatiblen Engines zugreifen. Dies gibt ihnen die Flexibilität, ihre verwalteten Daten und KI-Ressourcen über ihre bevorzugten Tools abzurufen. Bestehende Installationen nutzen dieselben offenen APIs, sodass externe Clients auf alle Tabellen, Volumina und Funktionen im Unity Catalog mit bestehenden Zugriffsberechtigungen zugreifen können.“
Unity Catalog gewährleistet die Interoperabilität mit großen Cloud-Plattformen (Microsoft Azure, AWS, GCP und Salesforce) sowie Rechen-Engines wie Apache Spark, Presto, Trino und anderen. Es unterstützt verschiedene Daten- und KI-Plattformen, darunter dbt Labs, Confluent, Fivetran, Granica und mehr.
Zusätzlich zur Unterstützung offener Formate und Engines erfüllt das Katalogsystem die Standards der Iceberg REST Catalog und Hive Metastore (HMS)-Schnittstellen, was eine kohärente Verwaltung sowohl für tabellarische als auch für nicht-tabellarische Daten und KI-Ressourcen fördert. Diese Fähigkeit vereinfacht das Management unterschiedlichster Datentypen, einschließlich maschineller Lernmodelle und generativer KI-Tools, im großen Maßstab.
Wie schneidet Unity Catalog im Vergleich zum Polaris Catalog von Snowflake ab?
Wie Unity Catalog betont auch Snowflakes Polaris Catalog die offene Katalogimplementierung für Interoperabilität. Polaris ist jedoch auf Daten im Apache Iceberg-Format beschränkt, während Unity Catalog OSS Daten in jedem Format unterstützt, einschließlich Iceberg, Delta, Hudi, Parquet, CSV und JSON.
Darüber hinaus erstreckt sich das Angebot von Databricks auf unstrukturierte Datensätze (Volumina) und KI-Tools, was es Organisationen ermöglicht, Bilder, Dokumente und andere Dateien zu verwalten, die für generative KI-Anwendungen erforderlich sind — eine Funktion, die bei Polaris nicht verfügbar ist.
Minnick fügte hinzu: „Die proprietären Speicherformat-Tabellen von Snowflake sind über Polaris nicht zugänglich, während die Unity Catalog OSS APIs externen Clients den Zugriff auf alle Tabellen, Volumina und Funktionen im Databricks Unity Catalog ermöglichen.“
Weltweit verlassen sich über 10.000 Organisationen, darunter NASDAQ, Rivian und AT&T, auf Unity Catalog innerhalb der Databricks Data Intelligence Platform. Die Umstellung auf Open Source wird voraussichtlich die Akzeptanzraten erheblich beeinflussen.
Der Databricks Data and AI Summit findet vom 10. bis 13. Juni 2024 statt.