データをその源から分析やAIに効果的に活用することは、しばしば容易ではありません。そのため、データパイプラインを円滑に運営し、必要な場所にデータを届けるために、オープンソースのApache Airflowプロジェクトのようなデータオーケストレーション技術が重要な役割を果たします。
本日、Apache Airflow 2.10がリリースされました。これは、4月にリリースされたAirflow 2.9以来の大規模な更新です。この新しいバージョンでは、ハイブリッド実行が導入され、企業は単純なSQLクエリから高度な機械学習(ML)タスクまで、さまざまなワークロードに対するリソースの最適化が可能になります。拡張されたデータの系譜機能により、データフローの可視性が向上し、ガバナンスとコンプライアンスのニーズを満たします。
Apache Airflowの主要な商業ベンダーであるAstronomerは、オープンソースのdbt-core(Data Build Tool)との統合を進めるため、Astroプラットフォームのアップデートも行っています。この統合により、データオーケストレーションと変換ワークフローを単一のプラットフォームで統合することができます。
これらの更新は、データ操作を円滑にし、従来のデータワークフローと新興のAIアプリケーションとのギャップを埋めることを目的としており、さまざまなデータ環境やAIプロセスの複雑さに対応する柔軟なアプローチを企業に提供します。
AstronomerのCTO、ジュリアン・ラネーブは、「オーケストレーションを採用することで、データサプライチェーン全体の活動を調整し、中心的な可視性を確保することが重要です」と述べました。
Airflow 2.10によるハイブリッド実行の強化
Airflow 2.10の大きな改良点は、ハイブリッド実行の導入です。これまでのAirflowユーザーは、デプロイ全体に対して単一の実行モード(通常はKubernetesクラスターまたはCeleryエグゼキュータ)を選択する必要がありました。Kubernetesは計算集約型の複雑なジョブ処理に最適ですが、Celeryは軽量なタスクにおいて優れています。
しかし、現実のデータパイプラインは様々なワークロードの組み合わせを含むことがよくあります。ラネーブは、組織が単純なSQLクエリと複雑な機械学習ワークフローを同じデプロイ内で実行する必要がある場合があることを指摘しました。ハイブリッド実行により、この柔軟性が実現でき、データパイプラインの各コンポーネントが適切なレベルの計算リソースに最適化されます。
ラネーブは、「パイプラインやタスクのレベルで実行モードを選択することで、全体のデプロイメントで一律に行うのではなく、新しいレベルの柔軟性と効率性がAirflowユーザーに提供されます」と述べています。
AI指向のデータオーケストレーションにおけるデータの系譜の重要性
データの系譜—データの起源とその旅程を理解すること—は、従来の分析や新兴のAIワークロードの両方において重要です。堅牢な系譜追跡は、データの品質や出所が結果に大きく影響するAIや機械学習において不可欠です。
Airflow 2.10のリリース前、データ系譜の追跡には限界がありました。しかし、新機能により、Airflowはパイプライン内の依存関係やデータフローをさらに捕捉できるようになり、カスタムPythonコードに対しても対応しています。この改善により、ラネーブは「現在のAIアプリケーションの鍵となる要素は信頼である」と述べており、AIによって生成される出力が信頼できることを保証する必要があります。明確な系譜は、データがどのように収集され、変換され、モデルのトレーニングに使用されたかを文書化する監査可能なトレイルを提供し、機微な情報に関するデータガバナンスとセキュリティを向上させます。
Airflow 3.0への展望
データガバナンス、セキュリティ、プライバシーの重要性が高まる中、ラネーブはすでにAirflow 3.0の未来を見据えています。この新バージョンは、生成AIの時代に合わせてAirflowを現代化することを目指しており、ユーザーが任意のプログラミング言語でタスクを記述できるようにすることや、データフローの管理に重点を置いてプロセスのオーケストレーションを改善することが優先事項です。
ラネーブは、「Airflowを今後10年から15年、オーケストレーションの標準として保持したい」と強調しています。