データオーケストレーションは、異なるシステム間でデータをスムーズに転送するために重要な役割を果たしており、Apache Airflowはその目的のために登場した主要なツールです。Airflowは、もともとAirbnbによって開発されました。
最近、Apache Airflowの主要な商業支援者であるAstronomerがAstroプラットフォームのアップデートを発表し、エンタープライズサポート、セキュリティ、および管理機能を強化しました。元々は分析やビジネスインテリジェンスのためのデータパイプラインのオーケストレーション用に設計されたAirflowは、今や人工知能(AI)および機械学習(ML)ワークロードでも利用されています。
AstronomerのCTOであるジュリアン・ラネーブ氏は、「Airflowはデータパイプラインの作成と実行に優れており、パイプラインをコードとして定義することで、ほぼ無限の可能性が広がります」と述べています。
Airflowのデータオーケストレーションにおける重要性
ラネーブ氏は、Airflowの人気が高まっている理由として、組織におけるデータパイプラインの定義、構築、およびデプロイが容易になる点を挙げました。Airflowは、Snowflake、Databricks、AWS、Microsoft Azure、Google Cloudなどの主要なデータプラットフォームやクラウドサービスとシームレスに統合されています。Airflowは単一チームでの利用には使いやすいですが、エンタープライズレベルではその複雑さが増します。ここでAstronomerは、Apache Airflowの管理サービスを提供します。
Astronomerはオープンソースのフレームワークに追加機能を持たせており、ラネーブ氏は「Astronomerランタイムを開発し、オープンソースプロジェクトを効率的に最適化しました」と説明しました。また、Astroプラットフォームにはデータパイプラインの作成をスムーズにするためのツールも含まれています。たとえば、Astro Cloud IDEはノートブックベースの環境を提供し、パイプライン開発を容易にしています。さらに、Astronomerは、エコシステム全体のデータフローを理解することに焦点を当てた可観測性の分野にも取り組んでいます。
Astroの接続性の強化とアップグレード
最新のAstroプラットフォームのアップデートでは、大幅な機能強化が行われました。データパイプライン管理の主要な課題の一つは、データソースへの安全な接続を確保することですが、新たに導入された接続管理機能がこの問題に対応します。この機能は、データパイプラインのセキュリティとガバナンスを一元管理するものです。「管理者は、Snowflake、Databricks、Airflow経由でアクセス可能なその他のソースへの接続を簡単に定義できます」とラネーブ氏は述べました。
また、アップデートによりデータパイプラインの設定に関するスムーズなアップグレードとロールバックが可能になります。もしパイプラインが失敗した場合、ユーザーは素早く以前の設定に戻すことができ、プラットフォームはアップデートを適用する前に互換性をチェックして、スムーズな運用を確保します。
AIへの取り組み
Astronomerは、AIワークフローでの利用が急増しています。11月には、OpenAI、Cohere、Pinecone、OpenSearch、Weaviate、pgvectorなどのさまざまなAIベンダーとの統合を発表しました。また、Astronomerは大規模言語モデル(LLM)アプリケーションの構築と展開のための参照アーキテクチャも導入しました。公開デモンストレーションはask.astronomer.ioで利用可能で、さまざまな情報源からの文書を取得拡張生成(RAG)戦略を使用して統合する方法を示しています。
ラネーブ氏は、AIモデルのトレーニングにAirflowとAstroプラットフォームが広く利用されることを期待しています。「モデルが最新のデータでトレーニングされることを保証するためには、信頼性が最重要です。そのためにAstronomerとAirflowが設計されているのです。」