Сегодня Databricks запустила свой ежегодный саммит по Data and AI, объявив о значительном изменении: компания открыла исходный код своей платформы Unity Catalog, разработанной последние три года для обеспечения комплексного решения в области управления данными.
Ранее являясь проприетарным продуктом, теперь Unity Catalog доступен под лицензией Apache 2.0. Это позволяет компаниям использовать основную архитектуру и код для создания и настройки собственных каталогов без затрат на Databricks. Кроме того, Unity Catalog получит поддержку OpenAPI, сервера и клиентов.
Это объявление последовало за подобной инициативой со стороны Snowflake, главного конкурента Databricks, который недавно представил Polaris Catalog — свою собственную открытую систему каталогов для предприятий. Однако в отличие от Databricks, которая сразу открыла исходный код Unity Catalog (технический директор Databricks Матея Захария продемонстрировал код в прямом эфире), Snowflake планирует открыть Polaris в течение следующих 90 дней.
Unity Catalog OSS: Доступ к контролю для клиентов
Databricks изначально запустила Unity Catalog как инструмент управления данными, предназначенный для контроля доступа к данным и ИИ-ресурсам в своей экосистеме. Платформа включала функции централизованного управления доступом, аудита, поиска данных, отслеживания происхождения и безопасного обмена данными.
Однако закрытая природа ограничивала возможности пользователей по интеграции с другими технологиями, особенно с движками запросов, совместимыми с Apache Iceberg или Hudi — двумя широко используемыми открытыми форматами таблиц. Осознавая это ограничение, Databricks разработала Delta Lake Universal Format (UniForm) в прошлом году. Эта новая функция автоматически генерирует необходимую метаданные для Apache Iceberg и Hudi, объединяя форматы таблиц в единую копию, доступную из любого поддерживаемого движка.
С открытием исходного кода Unity Catalog и внедрением открытых API, Databricks стремится предоставить универсальный интерфейс, который поддерживает все три открытых формата данных через UniForm. Это развитие повышает совместимость с различными движками запросов, инструментами и облачными платформами.
Джоэль Минник, вице-президент по продуктам в Databricks, объяснил: «С открытым исходным кодом Unity Catalog текущие клиенты Databricks могут использовать широкий экосистему движков, совместимых с Delta Lake и Apache Iceberg, что дает им гибкость доступа к управляемым данным и ИИ-ресурсам через предпочитаемые инструменты. Существующие развертывания используют одни и те же открытые API, позволяя внешним клиентам получать доступ ко всем таблицам и функциям в Unity Catalog с действующими контролями доступа».
Unity Catalog также обеспечивает совместимость с основными облачными платформами (Microsoft Azure, AWS, GCP и Salesforce) и вычислительными движками, такими как Apache Spark, Presto, Trino и другими. Продукт поддерживает различные платформы для работы с данными и ИИ, включая dbt Labs, Confluent, Fivetran, Granica и другие.
Кроме поддержки открытых форматов и движков, каталог соответствует стандартам интерфейсов Iceberg REST Catalog и Hive Metastore (HMS), что способствует целостному управлению как табличными, так и нетабличными данными и ИИ-ресурсами. Эта возможность упрощает крупномасштабное управление разнообразными типами данных, включая модели машинного обучения и инструменты генеративного ИИ.
Чем Unity Catalog отличается от Polaris Catalog от Snowflake?
Как и Unity Catalog, Polaris Catalog от Snowflake акцентирует внимание на реализации открытого каталога для совместимости. Однако Polaris ограничен данными в формате Apache Iceberg, тогда как Unity Catalog OSS поддерживает данные в любом формате, включая Iceberg, Delta, Hudi, Parquet, CSV и JSON.
Более того, предложение Databricks распространяется на неструктурированные наборы данных (объемы) и инструменты ИИ, что позволяет организациям управлять изображениями, документами и другими файлами, необходимыми для приложений на основе генеративного ИИ — возможности, недоступной в Polaris.
Минник добавил: «Таблицы с проприетарным форматом хранения Snowflake недоступны через Polaris, тогда как API Unity Catalog OSS позволяют внешним клиентам получать доступ ко всем таблицам, объемам и функциям в Databricks Unity Catalog».
В мире более 10 000 организаций, включая NASDAQ, Rivian и AT&T, полагаются на Unity Catalog в рамках платформы Data Intelligence от Databricks. Переход на открытый исходный код ожидается, что существенно повлияет на темпы внедрения.
Саммит Data and AI от Databricks пройдет с 10 по 13 июня 2024 года.