Hoje, a Databricks lançou seu evento anual Data and AI Summit, anunciando uma mudança significativa: a plataforma Unity Catalog, em desenvolvimento nos últimos três anos para oferecer uma solução abrangente de governança de dados, agora é de código aberto. Antes uma oferta proprietária, o Unity Catalog está disponível sob a licença Apache 2.0. Essa mudança permite que as empresas utilizem a arquitetura e o código subjacentes para criar e personalizar seus próprios catálogos sem custos com a Databricks. Além disso, o Unity Catalog contará com uma especificação OpenAPI, suporte a servidores e clientes.
Esse anúncio surge logo após uma iniciativa semelhante da Snowflake, principal concorrente da Databricks, que recentemente introduziu o Polaris Catalog—seu próprio sistema de catálogos abertos para empresas. Embora a Databricks tenha imediatamente aberto o código do Unity Catalog (com o CTO Matei Zaharia demonstrando ao vivo), a abertura do Polaris pela Snowflake ocorrerá nos próximos 90 dias.
Unity Catalog OSS: Empoderando o Controle do Cliente
Originalmente, a Databricks lançou o Unity Catalog como uma ferramenta de governança de dados destinada a gerenciar o acesso a dados e ativos de IA em seu ecossistema. Incluía funcionalidades como gerenciamento centralizado de acesso a dados, auditoria, descoberta de dados, rastreamento de linhagem e compartilhamento seguro de dados.
Entretanto, sua natureza fechada limitava a capacidade dos usuários de integrá-lo a outras tecnologias, especialmente com máquinas de consulta compatíveis com Apache Iceberg ou Hudi—dois formatos de tabela abertos amplamente utilizados. Reconhecendo essa limitação, a Databricks desenvolveu o Delta Lake Universal Format (UniForm) no ano passado. Essa nova funcionalidade gera automaticamente os metadados necessários para Apache Iceberg e Hudi, unificando os formatos de tabela em uma única cópia acessível de qualquer mecanismo compatível.
Com a abertura do Unity Catalog e a introdução de APIs abertas, a Databricks pretende fornecer uma interface universal que acomoda todos os três formatos abertos de dados por meio do UniForm. Esse desenvolvimento melhora a compatibilidade entre diversos motores de consulta, ferramentas e plataformas de nuvem.
Joel Minnick, VP de Marketing de Produto da Databricks, explicou: “Com o Unity Catalog de código aberto, os atuais clientes da Databricks podem aproveitar um amplo ecossistema de motores compatíveis com Delta Lake e Apache Iceberg, proporcionando flexibilidade para acessar seus dados gerenciados e ativos de IA por meio de suas ferramentas preferidas. As implantações existentes utilizam as mesmas APIs abertas, permitindo que clientes externos leiam todas as tabelas, volumes e funções no Unity Catalog com os controles de acesso já estabelecidos.”
O Unity Catalog também garante interoperabilidade com as principais plataformas de nuvem (Microsoft Azure, AWS, GCP e Salesforce) e motores de computação como Apache Spark, Presto, Trino, entre outros. Suporta várias plataformas de dados e IA, incluindo dbt Labs, Confluent, Fivetran, Granica e mais.
Além de apoiar formatos e motores abertos, o catálogo está em conformidade com os padrões de interface do Iceberg REST Catalog e do Hive Metastore (HMS), promovendo uma governança coesa entre dados tabulares e não tabulares e ativos de IA. Essa capacidade simplifica o gerenciamento em larga escala de diferentes tipos de dados, incluindo modelos de aprendizado de máquina e ferramentas de IA generativa.
Como o Unity Catalog se Compara ao Polaris Catalog da Snowflake?
Semelhante ao Unity Catalog, o Polaris Catalog da Snowflake enfatiza a implementação de catálogos abertos para interoperabilidade. No entanto, o Polaris é limitado a dados formatados para Apache Iceberg, enquanto o Unity Catalog OSS suporta dados em qualquer formato, incluindo Iceberg, Delta, Hudi, Parquet, CSV e JSON.
Além disso, a oferta da Databricks se estende a conjuntos de dados não estruturados (volumes) e ferramentas de IA, permitindo que organizações gerenciem imagens, documentos e outros arquivos essenciais para aplicações de IA generativa—uma capacidade não disponível no Polaris.
Minnick acrescentou: “As tabelas do formato de armazenamento proprietário da Snowflake não podem ser acessadas via Polaris, enquanto as APIs do Unity Catalog OSS permitem que clientes externos leiam todas as tabelas, volumes e funções no Databricks Unity Catalog.”
Globalmente, mais de 10.000 organizações, incluindo NASDAQ, Rivian e AT&T, confiam no Unity Catalog dentro da Databricks Data Intelligence Platform. A transição para o código aberto deve influenciar significativamente as taxas de adoção.
O Databricks Data and AI Summit ocorrerá de 10 a 13 de junho de 2024.