Databricks открывает Unity Catalog с открытым исходным кодом: революционная перемена в интероперабельности данных для рабочих нагрузок, ставящая под сомнение Snowflake.

Сегодня Databricks запустила свой ежегодный саммит по Data and AI, объявив о значительном изменении: компания открыла исходный код своей платформы Unity Catalog, разработанной последние три года для обеспечения комплексного решения в области управления данными.

Ранее являясь проприетарным продуктом, теперь Unity Catalog доступен под лицензией Apache 2.0. Это позволяет компаниям использовать основную архитектуру и код для создания и настройки собственных каталогов без затрат на Databricks. Кроме того, Unity Catalog получит поддержку OpenAPI, сервера и клиентов.

Это объявление последовало за подобной инициативой со стороны Snowflake, главного конкурента Databricks, который недавно представил Polaris Catalog — свою собственную открытую систему каталогов для предприятий. Однако в отличие от Databricks, которая сразу открыла исходный код Unity Catalog (технический директор Databricks Матея Захария продемонстрировал код в прямом эфире), Snowflake планирует открыть Polaris в течение следующих 90 дней.

Unity Catalog OSS: Доступ к контролю для клиентов

Databricks изначально запустила Unity Catalog как инструмент управления данными, предназначенный для контроля доступа к данным и ИИ-ресурсам в своей экосистеме. Платформа включала функции централизованного управления доступом, аудита, поиска данных, отслеживания происхождения и безопасного обмена данными.

Однако закрытая природа ограничивала возможности пользователей по интеграции с другими технологиями, особенно с движками запросов, совместимыми с Apache Iceberg или Hudi — двумя широко используемыми открытыми форматами таблиц. Осознавая это ограничение, Databricks разработала Delta Lake Universal Format (UniForm) в прошлом году. Эта новая функция автоматически генерирует необходимую метаданные для Apache Iceberg и Hudi, объединяя форматы таблиц в единую копию, доступную из любого поддерживаемого движка.

С открытием исходного кода Unity Catalog и внедрением открытых API, Databricks стремится предоставить универсальный интерфейс, который поддерживает все три открытых формата данных через UniForm. Это развитие повышает совместимость с различными движками запросов, инструментами и облачными платформами.

Джоэль Минник, вице-президент по продуктам в Databricks, объяснил: «С открытым исходным кодом Unity Catalog текущие клиенты Databricks могут использовать широкий экосистему движков, совместимых с Delta Lake и Apache Iceberg, что дает им гибкость доступа к управляемым данным и ИИ-ресурсам через предпочитаемые инструменты. Существующие развертывания используют одни и те же открытые API, позволяя внешним клиентам получать доступ ко всем таблицам и функциям в Unity Catalog с действующими контролями доступа».

Unity Catalog также обеспечивает совместимость с основными облачными платформами (Microsoft Azure, AWS, GCP и Salesforce) и вычислительными движками, такими как Apache Spark, Presto, Trino и другими. Продукт поддерживает различные платформы для работы с данными и ИИ, включая dbt Labs, Confluent, Fivetran, Granica и другие.

Кроме поддержки открытых форматов и движков, каталог соответствует стандартам интерфейсов Iceberg REST Catalog и Hive Metastore (HMS), что способствует целостному управлению как табличными, так и нетабличными данными и ИИ-ресурсами. Эта возможность упрощает крупномасштабное управление разнообразными типами данных, включая модели машинного обучения и инструменты генеративного ИИ.

Чем Unity Catalog отличается от Polaris Catalog от Snowflake?

Как и Unity Catalog, Polaris Catalog от Snowflake акцентирует внимание на реализации открытого каталога для совместимости. Однако Polaris ограничен данными в формате Apache Iceberg, тогда как Unity Catalog OSS поддерживает данные в любом формате, включая Iceberg, Delta, Hudi, Parquet, CSV и JSON.

Более того, предложение Databricks распространяется на неструктурированные наборы данных (объемы) и инструменты ИИ, что позволяет организациям управлять изображениями, документами и другими файлами, необходимыми для приложений на основе генеративного ИИ — возможности, недоступной в Polaris.

Минник добавил: «Таблицы с проприетарным форматом хранения Snowflake недоступны через Polaris, тогда как API Unity Catalog OSS позволяют внешним клиентам получать доступ ко всем таблицам, объемам и функциям в Databricks Unity Catalog».

В мире более 10 000 организаций, включая NASDAQ, Rivian и AT&T, полагаются на Unity Catalog в рамках платформы Data Intelligence от Databricks. Переход на открытый исходный код ожидается, что существенно повлияет на темпы внедрения.

Саммит Data and AI от Databricks пройдет с 10 по 13 июня 2024 года.

Most people like

Find AI tools in YBX