Obtenir des données de leur source et en faire un usage efficace dans l’analyse et l’IA n’est souvent pas une tâche facile. La technologie d'orchestration des données, comme le projet open-source Apache Airflow, joue un rôle essentiel en facilitant les pipelines de données qui les acheminent là où elles sont nécessaires.
Aujourd'hui, nous célébrons la sortie d'Apache Airflow 2.10, la première mise à jour majeure du projet depuis Airflow 2.9 en avril. Cette nouvelle version introduit l'exécution hybride, permettant aux organisations d’optimiser l’allocation des ressources pour divers types de charges de travail, allant des requêtes SQL simples aux tâches complexes d'apprentissage automatique (ML). Les capacités de traçabilité des données améliorées offrent une meilleure visibilité sur les flux de données, ce qui est crucial pour la gouvernance et la conformité.
Astronomer, le principal fournisseur commercial derrière Apache Airflow, met également à jour sa plateforme Astro pour intégrer le dbt-core (Data Build Tool) open-source. Cette intégration unifie les flux de travail d'orchestration et de transformation des données sur une seule plateforme.
Ces mises à jour visent à rationaliser les opérations de données et à combler le fossé entre les flux de travail de données traditionnels et les applications IA émergentes, offrant aux entreprises une approche plus adaptable pour l'orchestration des données, répondant aux complexités des environnements de données diversifiés et des processus d'IA.
Julian LaNeve, CTO d'Astronomer, a déclaré : « L'adoption de l'orchestration implique la coordination des activités tout au long de la chaîne d'approvisionnement des données et garantit une visibilité centrale. »
Comment Airflow 2.10 Améliore l’Orchestration des Données avec l’Exécution Hybride
Une amélioration majeure dans Airflow 2.10 est l'introduction de l'exécution hybride. Auparavant, les utilisateurs d'Airflow devaient choisir un mode d'exécution unique pour l'ensemble de leur déploiement, souvent un cluster Kubernetes ou l'exécuteur Celery. Kubernetes excelle dans le traitement des tâches intensives en calcul, tandis que Celery est plus efficace pour des tâches plus légères.
Cependant, les pipelines de données réels englobent souvent un mélange de types de charges de travail. LaNeve a souligné qu'une organisation pourrait avoir besoin d'exécuter une simple requête SQL en parallèle d'un flux de travail complexe d'apprentissage machine dans le même déploiement. L'exécution hybride permet désormais cette flexibilité, permettant à chaque composant du pipeline de données d’être optimisé pour le niveau de ressources informatiques approprié.
LaNeve a noté : « Choisir les modes d'exécution au niveau du pipeline et des tâches, plutôt que de manière uniforme pour l'ensemble du déploiement, apporte une nouvelle flexibilité et efficacité pour les utilisateurs d'Airflow. »
L'Importance de la Traçabilité des Données dans l'Orchestration Axée sur l’IA
La traçabilité des données — comprendre l'origine et le parcours des données — est cruciale tant pour l’analyse traditionnelle que pour les charges de travail liées à l'IA émergente. Un suivi robuste de la traçabilité est essentiel dans l’IA et l'apprentissage automatique, où la qualité et la provenance des données peuvent avoir un impact significatif sur les résultats.
Avant la sortie d'Airflow 2.10, le suivi de la traçabilité des données avait des limitations. Avec les nouvelles fonctionnalités, Airflow améliore désormais sa capacité à capturer les dépendances et les flux de données au sein des pipelines, même pour le code Python personnalisé. Ce suivi amélioré favorise la confiance dans les systèmes d'IA, comme l'a déclaré LaNeve, « Un élément clé pour toute application d'IA aujourd'hui est la confiance. » Les utilisateurs ont besoin de garantir que les résultats générés par l'IA sont fiables. Une traçabilité claire fournit une piste auditable documentant comment les données ont été collectées, transformées et utilisées pour entraîner des modèles, renforçant ainsi la gouvernance des données et la sécurité autour des informations sensibles.
Anticiper Airflow 3.0
Alors que la gouvernance, la sécurité et la confidentialité des données continuent de prendre de l'importance, LaNeve prévoit déjà l’avenir d'Airflow avec la version 3.0. Cette prochaine version vise à moderniser Airflow pour l'ère de l'IA générative, avec des priorités qui comprennent la création d'une plateforme plus agnostique en matière de langage, permettant aux utilisateurs de rédiger des tâches dans n'importe quel langage de programmation, et de renforcer la prise en charge des données en se concentrant davantage sur la gestion des flux de données plutôt que sur la simple orchestration des processus.
LaNeve a souligné : « Nous voulons nous assurer qu'Airflow demeure la norme d'orchestration pour les 10 à 15 prochaines années. »