DatabricksがUnity Catalogをオープンソース化:データ相互運用性の革新、Snowflakeへの挑戦

本日、Databricksは年次データとAIサミットを開催し、重要な変更を発表しました。それは、3年間の開発を経て、データガバナンスの包括的なソリューションを提供するUnity Catalogプラットフォームをオープンソース化したことです。

これまで専有ソフトウェアだったUnity Catalogは、Apache 2.0ライセンスのもとで利用可能になりました。この変更により、企業はDatabricksからのコストを発生させることなく、基盤となるアーキテクチャとコードを利用して、独自のカタログを作成・カスタマイズできるようになります。さらに、Unity CatalogはOpenAPI仕様、サーバー、クライアントサポートも搭載しています。

この発表は、Databricksの主要競合であるSnowflakeによる最近のポラリスカタログ導入に続くものです。ポラリスカタログは、企業向けのオープンカタログシステムですが、Databricksは即座にUnity Catalogをオープンソース化し、CTOのMatei Zahariaがライブでコードをデモンストレーションしました。一方、Snowflakeのポラリスは今後90日間でオープンソース化される予定です。

Unity Catalogオープンソース版: 顧客のコントロールを強化する

Databricksは、Unity CatalogをデータとAI資産へのアクセス管理を目的とした専有のデータガバナンスツールとして最初に発表しました。このツールは、集中管理されたデータアクセス管理、監査、データ発見、系譜追跡、安全なデータ共有などの機能を備えています。

しかし、そのクローズドソースの性質により、ユーザーは他の技術、特にApache IcebergやHudiと互換性のあるクエリエンジンとの統合が制限されていました。この制限を認識し、Databricksは昨年、Delta Lakeユニバーサルフォーマット(UniForm)を開発しました。この新機能は、Apache IcebergやHudiのための必要なMetaデータを自動生成し、テーブルフォーマットを統一して、すべてのサポートされているエンジンからアクセス可能な単一コピーを提供します。

Unity Catalogのオープンソース化とオープンAPIの導入により、DatabricksはUniFormを通じて3つのオープンデータフォーマットをサポートするユニバーサルインターフェースを提供することを目指しています。この進展は、さまざまなクエリエンジン、ツール、クラウドプラットフォームとの互換性を高めます。

DatabricksのプロダクトマーケティングVP、Joel Minnickは次のように説明しました。「オープンソース化されたUnity Catalogで、現在のDatabricksの顧客は、Delta LakeとApache Icebergに互換性のあるエンジンの広範なエコシステムを活用でき、お好みのツールから管理されたデータやAI資産にアクセスする自由を持つことができます。既存のデプロイメントは同じオープンAPIを利用しており、外部クライアントはUnity Catalog内のすべてのテーブル、ボリューム、機能に既存のアクセス制御を通じて読み取ることができます。」

Unity Catalogは、Microsoft Azure、AWS、GCP、Salesforceなどの主要なクラウドプラットフォームや、Apache Spark、Presto、Trinoなどのコンピューティングエンジンとの互換性も保証します。また、dbt Labs、Confluent、Fivetran、GranicaなどのさまざまなデータおよびAIプラットフォームをサポートしています。

オープンフォーマットやエンジンをサポートするだけでなく、カタログはIceberg REST CatalogおよびHive Metastore(HMS)インターフェース標準に準拠しており、表形式データと非表形式データおよびAI資産全体の統合的なガバナンスを促進します。この機能は、機械学習モデルや生成AIツールを含む多様なデータタイプの大規模管理を簡素化します。

Unity CatalogとSnowflakeのポラリスカタログの比較

Unity Catalogと同様に、Snowflakeのポラリスカタログも相互運用性のためのオープンカタログの実装を強調しています。しかし、ポラリスはApache Iceberg用にフォーマットされたデータに制限されている一方、Unity Catalog OSSはIceberg、Delta、Hudi、Parquet、CSV、JSONなど、あらゆるフォーマットのデータをサポートしています。

さらに、Databricksの提供は非構造データセット(ボリューム)やAIツールにまで拡大しており、画像、文書、その他のファイルを管理し、生成AIアプリケーションに必要な能力を提供しますが、これはポラリスにはありません。

Minnickは追加で述べました。「Snowflakeの専有ストレージフォーマットテーブルはポラリス経由ではアクセスできませんが、Unity Catalog OSSのAPIにより外部クライアントはDatabricks Unity Catalog内のすべてのテーブル、ボリューム、機能を読み取ることができます。」

世界中で、NASDAQ、Rivian、AT&Tを含む10,000を超える組織がDatabricks Data Intelligence Platform内でUnity Catalogを利用しています。オープンソースへの移行は、導入率に大きな影響を与えると予想されています。

DatabricksのデータとAIサミットは、2024年6月10日から13日まで開催されます。

Most people like

Find AI tools in YBX