今天,Databricks在其年度数据与人工智能峰会上宣布了一个重大变化:将其Unity Catalog平台开源。Unity Catalog经过三年的研发,旨在提供全面的数据治理解决方案。之前它是一个专有产品,现在根据Apache 2.0许可证可供使用。此次变更使企业能够利用其基础架构和代码,自主创建和定制自己的数据目录,而无需支付Databricks的费用。此外,Unity Catalog还将配备OpenAPI规范及服务器与客户端支持。
这一发布紧随Snowflake(Databricks的主要竞争对手)推出的Polaris Catalog之后,后者同样是一个开放的企业数据目录系统。然而,Databricks迅速开源了Unity Catalog,并由CTO Matei Zaharia现场演示代码,而Snowflake的Polaris将在接下来的90天内逐步开源。
Unity Catalog OSS:赋能客户控制
Databricks最初推出Unity Catalog作为专有的数据治理工具,旨在管理其生态系统内的数据和AI资产的访问。它包含集中数据访问管理、审计、数据发现、数据血缘追踪和安全数据共享等功能。
但是,闭源的特性限制了用户与其他技术(尤其是与Apache Iceberg或Hudi兼容的查询引擎)的集成。为了克服这一局限性,Databricks去年开发了Delta Lake Universal Format(UniForm)。这一新特性能够自动生成Apache Iceberg和Hudi所需的元数据,并将表格式统一为一个可由任何支持的引擎访问的副本。
通过开源Unity Catalog及引入开放API,Databricks旨在通过UniForm提供一个通用接口,支持所有三种开放数据格式。这一发展提升了各种查询引擎、工具和云平台之间的兼容性。
Databricks产品市场副总裁Joel Minnick表示:“开源的Unity Catalog使现有的Databricks客户能利用广泛的Delta Lake和Apache Iceberg兼容引擎,让他们可以通过偏好的工具访问管理的数据和AI资产。现有部署使用相同的开放API,允许外部客户通过Unity Catalog的访问控制读取所有表、卷和功能。”
Unity Catalog还确保与主要云平台(如微软Azure、AWS、GCP和Salesforce)及计算引擎(如Apache Spark、Presto、Trino等)互操作。它支持多种数据和AI平台,包括dbt Labs、Confluent、Fivetran和Granica等。
除了支持开放格式和引擎外,Unity Catalog还符合Iceberg REST Catalog和Hive Metastore(HMS)接口标准,从而推动表格和非表格数据及AI资产的统一治理。这一功能简化了对多种数据类型(包括机器学习模型和生成AI工具)的大规模管理。
Unity Catalog与Snowflake Polaris Catalog的比较
与Unity Catalog类似,Snowflake的Polaris Catalog强调开放目录实施以实现互操作性。然而,Polaris仅限于Apache Iceberg格式的数据,而Unity Catalog OSS则支持任何格式的数据,包括Iceberg、Delta、Hudi、Parquet、CSV和JSON。
此外,Databricks的产品还扩展到非结构化数据集(卷)和AI工具,使组织能够管理生成AI应用所需的重要文件,如图片和文档,而这在Polaris中是不可用的。
Minnick补充道:“Snowflake的专有存储格式表无法通过Polaris访问,而Unity Catalog OSS APIs允许外部客户读取Databricks Unity Catalog中的所有表、卷和功能。”
全球超过10,000家组织,包括NASDAQ、Rivian和AT&T,正在使用Databricks数据智能平台中的Unity Catalog。预计这一开源转变将显著影响用户的采纳率。
Databricks数据与AI峰会将于2024年6月10日至13日举行。