다트브릭스, 유니티 카탈로그 오픈 소스화: 작업 부하 간 데이터 상호 운용성 혁신, 스노우플레이크에 도전장 제출

오늘 Databricks는 연례 데이터 및 AI 서밋을 기념하며 중요한 변화를 발표했습니다. 바로 Unity Catalog 플랫폼의 오픈 소스화입니다. 이 플랫폼은 지난 3년 간 데이터 거버넌스를 위한 포괄적 솔루션을 제공하기 위해 개발되었습니다. 이전에는 독점 소프트웨어였던 Unity Catalog는 이제 Apache 2.0 라이선스 하에 제공됩니다. 이 변화로 기업들은 Databricks의 비용 없이도 기본 아키텍처와 코드를 활용하여 자신만의 카탈로그를 만들고 맞춤화할 수 있게 되었습니다. 또한 Unity Catalog는 OpenAPI 사양, 서버 및 클라이언트 지원 기능을 포함할 예정입니다.

이 발표는 Databricks의 주요 경쟁자인 Snowflake가 최근 발표한 폴라리스 카탈로그, 즉 기업을 위한 오픈 카탈로그 시스템과 밀접하게 연결되어 있습니다. Databricks는 Unity Catalog를 즉시 오픈 소스화했으며, CTO Matei Zaharia가 코드를 실시간으로 시연했습니다. 반면, Snowflake의 Polaris는 앞으로 90일 내에 오픈 소스화될 예정입니다.

Unity Catalog OSS: 고객의 권한 증대

Databricks는 원래 Unity Catalog를 독점 데이터 거버넌스 도구로 출시하였습니다. 이 도구는 데이터 및 AI 자산에 대한 접근 관리를 포함하여 중앙집중형 데이터 접근 관리, 감사, 데이터 탐색, 데이터 흐름 추적 및 안전한 데이터 공유와 같은 기능을 제공했습니다. 그러나 폐쇄 소스 구조로 인해 사용자는 Apache Iceberg 또는 Hudi와 같은 다양한 기술과의 통합이 제한되었습니다. 이에 Databricks는 지난해 델타 레이크 유니버설 포맷(UniForm)을 개발하였습니다. 이 기능은 Apache Iceberg와 Hudi에 필요한 메타데이터를 자동으로 생성하며, 다양한 테이블 형식을 지원하는 엔진에서 접근할 수 있는 단일 복사본으로 통합합니다.

Unity Catalog의 오픈 소스화 및 오픈 API 도입을 통해 Databricks는 UniForm을 통해 세 가지 오픈 데이터 형식을 모두 수용하는 보편적인 인터페이스를 제공하고자 합니다. 이러한 개발은 다양한 쿼리 엔진, 도구 및 클라우드 플랫폼 간의 호환성을 강화합니다.

Joel Minnick, Databricks의 제품 마케팅 VP는 “오픈 소스 Unity Catalog를 통해 현재 Databricks 고객은 Delta Lake 및 Apache Iceberg와 호환되는 광범위한 엔진 생태계를 활용하여 선호하는 도구를 통해 관리되는 데이터 및 AI 자산에 접근할 수 있습니다. 기존 배포는 동일한 오픈 API를 사용하여 외부 클라이언트가 Unity Catalog의 모든 테이블, 볼륨 및 기능을 읽을 수 있습니다.”라고 설명했습니다.

Unity Catalog는 Microsoft Azure, AWS, GCP, Salesforce와 같은 주요 클라우드 플랫폼 및 Apache Spark, Presto, Trino 등과 같은 컴퓨팅 엔진과의 상호 운용성을 보장합니다. 또한 dbt Labs, Confluent, Fivetran, Granica 등 다양한 데이터 및 AI 플랫폼을 지원합니다.

오픈 형식과 엔진 지원 외에도 이 카탈로그는 Iceberg REST 카탈로그 및 Hive Metastore(HMS) 인터페이스 표준을 준수하여 표 형식 및 비표 형식 데이터와 AI 자산 간의 일관된 거버넌스를 촉진합니다. 이를 통해 기계 학습 모델 및 생성 AI 도구와 같은 다양한 데이터 유형을 대규모로 간편하게 관리할 수 있습니다.

Unity Catalog와 Snowflake의 Polaris 카탈로그 비교

Unity Catalog와 마찬가지로 Snowflake의 Polaris 카탈로그는 상호 운용성을 위한 오픈 카탈로그 구현을 강조합니다. 그러나 Polaris는 Apache Iceberg 형식으로 포맷된 데이터에만 국한되어 있는 반면, Unity Catalog OSS는 Iceberg, Delta, Hudi, Parquet, CSV, JSON 등 다양한 형식의 데이터를 지원합니다.

또한 Databricks의 솔루션은 비정형 데이터셋(볼륨)과 AI 도구를 포함하여 조직이 생성 AI 애플리케이션에 필수적인 이미지, 문서 및 기타 파일을 관리할 수 있도록 합니다. 이는 Polaris가 지원하지 않는 기능입니다.

Minnick은 “Snowflake의 독점 저장 형식 테이블은 Polaris를 통해 접근할 수 없지만, Unity Catalog OSS API는 외부 클라이언트가 Databricks Unity Catalog의 모든 테이블, 볼륨 및 기능을 읽을 수 있도록 합니다.”라고 덧붙였습니다.

전 세계 10,000개 이상의 조직이 NASDAQ, Rivian, AT&T 등을 포함하여 Databricks Data Intelligence Platform 내에서 Unity Catalog를 사용하고 있습니다. 오픈 소스로의 전환은 채택률에 큰 영향을 미칠 것으로 예상됩니다.

Databricks 데이터 및 AI 서밋은 2024년 6월 10일부터 6월 13일까지 진행됩니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles