Aujourd'hui, Databricks a lancé son Sommet annuel sur les données et l'IA en annonçant un changement majeur : la mise à disposition en open source de sa plateforme Unity Catalog, développée depuis trois ans pour offrir une solution complète de gouvernance des données.
Autrefois une offre propriétaire, Unity Catalog est désormais disponible sous la licence Apache 2.0. Ce changement permet aux entreprises d'utiliser l'architecture et le code sous-jacents pour créer et personnaliser leurs propres catalogues sans frais liés à Databricks. De plus, Unity Catalog sera doté d'une spécification OpenAPI, ainsi que d'un support pour serveur et client.
Cette annonce fait suite à une initiative similaire de Snowflake, principal concurrent de Databricks, qui a récemment lancé le Polaris Catalog, son propre système de catalogue ouvert pour les entreprises. Cependant, tandis que Databricks a immédiatement mis Unity Catalog en open source (Matei Zaharia, CTO de Databricks, a proposé une démonstration en direct du code), le catalogue Polaris de Snowflake sera ouvert dans les 90 jours à venir.
Unity Catalog OSS : Renforcer le Contrôle des Clients
Databricks a initialement lancé Unity Catalog en tant qu'outil de gouvernance des données pour gérer l'accès aux données et aux actifs d'IA dans son écosystème. Il offrait des fonctionnalités telles que la gestion centralisée des accès, l'audit, la découverte des données, le suivi de la provenance et le partage sécurisé des données.
Cependant, sa nature fermée limitait la capacité des utilisateurs à l'intégrer à d'autres technologies, notamment avec des moteurs de requête compatibles avec Apache Iceberg ou Hudi, deux formats de tables ouverts largement utilisés. Reconnaissant cette limitation, Databricks a élaboré l'an dernier le Delta Lake Universal Format (UniForm), une nouvelle fonctionnalité qui génère automatiquement les métadonnées nécessaires pour Apache Iceberg et Hudi, tout en unifiant les formats de table dans une seule copie accessible depuis n'importe quel moteur pris en charge.
Avec l'open-sourcing de Unity Catalog et l'introduction d'APIs ouvertes, Databricks vise à créer une interface universelle qui prend en charge les trois formats de données ouverts via UniForm. Ce développement améliore la compatibilité entre divers moteurs de requête, outils et plateformes cloud.
Joel Minnick, VP Marketing Produit chez Databricks, a expliqué : « Avec Unity Catalog en open source, nos clients peuvent tirer parti d'un large écosystème de moteurs compatibles avec Delta Lake et Apache Iceberg, leur offrant la flexibilité d'accéder à leurs données gérées et actifs d'IA via leurs outils préférés. Les déploiements existants utilisent les mêmes APIs ouvertes, permettant aux clients externes de lire toutes les tables, volumes et fonctions du Unity Catalog avec les contrôles d'accès existants. »
Unity Catalog garantit également l'interopérabilité avec les principales plateformes cloud (Microsoft Azure, AWS, GCP et Salesforce) et les moteurs de calcul tels qu'Apache Spark, Presto, Trino, etc. Il prend en charge diverses plateformes de données et d'IA, y compris dbt Labs, Confluent, Fivetran, Granica, et d'autres.
En plus de soutenir les formats et moteurs ouverts, le catalogue respecte les normes d'interface du Iceberg REST Catalog et du Hive Metastore (HMS), favorisant une gouvernance cohérente entre les données tabulaires et non tabulaires. Cette capacité simplifie la gestion à grande échelle des types de données variés, y compris les modèles d'apprentissage automatique et les outils d'IA générative.
Comment Unity Catalog se Compare-t-il au Polaris Catalog de Snowflake ?
Tout comme Unity Catalog, le Polaris Catalog de Snowflake met l'accent sur la mise en œuvre d'un catalogue ouvert pour l'interopérabilité. Cependant, Polaris est limité aux données formatées pour Apache Iceberg, tandis que Unity Catalog OSS prend en charge les données dans n'importe quel format, y compris Iceberg, Delta, Hudi, Parquet, CSV et JSON.
De plus, l'offre de Databricks s'étend aux ensembles de données non structurées (volumes) et aux outils d'IA, permettant aux organisations de gérer des images, des documents et d'autres fichiers essentiels pour les applications d'IA générative—une capacité non disponible avec Polaris.
Minnick a ajouté : « Les tables au format de stockage propriétaire de Snowflake ne peuvent pas être accessibles via Polaris, tandis que les APIs de Unity Catalog OSS permettent aux clients externes de lire toutes les tables, volumes et fonctions dans le Unity Catalog de Databricks. »
Dans le monde entier, plus de 10 000 organisations, incluyendo NASDAQ, Rivian et AT&T, utilisent Unity Catalog au sein de la plateforme Data Intelligence de Databricks. La transition vers l'open source devrait avoir un impact significatif sur les taux d'adoption.
Le Sommet sur les données et l'IA de Databricks se déroulera du 10 au 13 juin 2024.