今天,Databricks 在年度數據與 AI 峰會上宣布一項重大變革:將其 Unity Catalog 平台開源,這一平台在過去三年中旨在提供全面的數據治理解決方案。Unity Catalog 原本為專有產品,現在已採用 Apache 2.0 授權,企業可以利用其底層架構和代碼,自行創建和定制自己的目錄,無需支付 Databricks 的費用。此外,Unity Catalog 將提供 OpenAPI 規範、伺服器和客戶端支持。
此項公告緊隨競爭對手 Snowflake 的類似舉措,而 Snowflake 最近推出了 Polaris Catalog—其企業用的開放目錄系統。不過,Databricks 迅速開源 Unity Catalog(由 Databricks 的首席技術官 Matei Zaharia 當場演示代碼),而 Snowflake 的 Polaris 計劃在接下來的 90 天內開源。
Unity Catalog OSS:賦予客戶控制權
Databricks 最初推出 Unity Catalog 作為專有的數據治理工具,旨在管理其生態系統內的數據和 AI 資產訪問。它包括集中數據訪問管理、審計、數據發現、血緣追蹤和安全數據共享等功能。然而,其閉源特性限制了用戶與其他技術的整合能力,特別是與兼容 Apache Iceberg 或 Hudi 的查詢引擎。意識到這一限制,Databricks 去年開發了 Delta Lake Universal Format(UniForm)。這一新功能自動生成 Apache Iceberg 和 Hudi 所需的元數據,並將表格式統一為任何支持的引擎可訪問的單一副本。
隨著 Unity Catalog 的開源和開放 API 的引入,Databricks 旨在提供一個通用接口,通過 UniForm 支援三種開放數據格式,提高各種查詢引擎、工具和雲平台之間的兼容性。
Databricks 的產品行銷副總裁 Joel Minnick 解釋說:「開源的 Unity Catalog 讓現有的 Databricks 客戶能夠利用廣泛的 Delta Lake 和 Apache Iceberg 兼容引擎,靈活地通過他們喜愛的工具訪問受管數據和 AI 資產。現有部署使用相同的開放 API,讓外部客戶能夠根據現有訪問控制讀取 Unity Catalog 中的所有表、卷和功能。」
Unity Catalog 還確保了與主要雲平台(如 Microsoft Azure、AWS、GCP 和 Salesforce)及計算引擎(如 Apache Spark、Presto、Trino 等)的互通性。它支持各種數據和 AI 平台,包括 dbt Labs、Confluent、Fivetran、Granica 等。除了支持開放格式和引擎之外,Catalog 還遵循 Iceberg REST Catalog 和 Hive Metastore(HMS)接口標準,促進了表格數據和非表格數據及 AI 資產之間的協同治理,簡化了對多樣數據類型的管理,包括機器學習模型和生成式 AI 工具。
Unity Catalog 與 Snowflake 的 Polaris Catalog 有何比較?
與 Unity Catalog 類似,Snowflake 的 Polaris Catalog 也強調開放目錄實施以支持互操作性。然而,Polaris 僅支持格式為 Apache Iceberg 的數據,而 Unity Catalog OSS 則支持多種格式的數據,包括 Iceberg、Delta、Hudi、Parquet、CSV 和 JSON。此外,Databricks 的方案還包括非結構化數據集(卷)和 AI 工具,使組織能夠管理圖像、文檔和生成式 AI 應用所需的其他文件——這是 Polaris 所不具備的功能。
Minnick 補充道:「Snowflake 的專有存儲格式表無法通過 Polaris 訪問,而 Unity Catalog OSS API 允許外部客戶從 Databricks Unity Catalog 中的所有表、卷和功能讀取。」
目前全球有超過 10,000 家組織,包括 NASDAQ、Rivian 和 AT&T,在 Databricks 數據智能平台中依賴 Unity Catalog。轉向開源預計將顯著影響採用率。
Databricks 數據與 AI 峰會將於 2024 年 6 月 10 日至 6 月 13 日舉行。