Présentation d'Apache Airflow 2.10 : Une Nouvelle Ère pour l'Orchestration de Données en IA

Home Actualités IA Présentation d'Apache Airflow 2.10 : Une Nouvelle Ère pour l'Orchestration de Données en IA

Obtenir des données de leur source et en faire un usage efficace dans l’analyse et l’IA n’est souvent pas une tâche facile. La technologie d'orchestration des données, comme le projet open-source Apache Airflow, joue un rôle essentiel en facilitant les pipelines de données qui les acheminent là où elles sont nécessaires.

Aujourd'hui, nous célébrons la sortie d'Apache Airflow 2.10, la première mise à jour majeure du projet depuis Airflow 2.9 en avril. Cette nouvelle version introduit l'exécution hybride, permettant aux organisations d’optimiser l’allocation des ressources pour divers types de charges de travail, allant des requêtes SQL simples aux tâches complexes d'apprentissage automatique (ML). Les capacités de traçabilité des données améliorées offrent une meilleure visibilité sur les flux de données, ce qui est crucial pour la gouvernance et la conformité.

Astronomer, le principal fournisseur commercial derrière Apache Airflow, met également à jour sa plateforme Astro pour intégrer le dbt-core (Data Build Tool) open-source. Cette intégration unifie les flux de travail d'orchestration et de transformation des données sur une seule plateforme.

Ces mises à jour visent à rationaliser les opérations de données et à combler le fossé entre les flux de travail de données traditionnels et les applications IA émergentes, offrant aux entreprises une approche plus adaptable pour l'orchestration des données, répondant aux complexités des environnements de données diversifiés et des processus d'IA.

Julian LaNeve, CTO d'Astronomer, a déclaré : « L'adoption de l'orchestration implique la coordination des activités tout au long de la chaîne d'approvisionnement des données et garantit une visibilité centrale. »

Comment Airflow 2.10 Améliore l’Orchestration des Données avec l’Exécution Hybride

Une amélioration majeure dans Airflow 2.10 est l'introduction de l'exécution hybride. Auparavant, les utilisateurs d'Airflow devaient choisir un mode d'exécution unique pour l'ensemble de leur déploiement, souvent un cluster Kubernetes ou l'exécuteur Celery. Kubernetes excelle dans le traitement des tâches intensives en calcul, tandis que Celery est plus efficace pour des tâches plus légères.

Cependant, les pipelines de données réels englobent souvent un mélange de types de charges de travail. LaNeve a souligné qu'une organisation pourrait avoir besoin d'exécuter une simple requête SQL en parallèle d'un flux de travail complexe d'apprentissage machine dans le même déploiement. L'exécution hybride permet désormais cette flexibilité, permettant à chaque composant du pipeline de données d’être optimisé pour le niveau de ressources informatiques approprié.

LaNeve a noté : « Choisir les modes d'exécution au niveau du pipeline et des tâches, plutôt que de manière uniforme pour l'ensemble du déploiement, apporte une nouvelle flexibilité et efficacité pour les utilisateurs d'Airflow. »

L'Importance de la Traçabilité des Données dans l'Orchestration Axée sur l’IA

La traçabilité des données — comprendre l'origine et le parcours des données — est cruciale tant pour l’analyse traditionnelle que pour les charges de travail liées à l'IA émergente. Un suivi robuste de la traçabilité est essentiel dans l’IA et l'apprentissage automatique, où la qualité et la provenance des données peuvent avoir un impact significatif sur les résultats.

Avant la sortie d'Airflow 2.10, le suivi de la traçabilité des données avait des limitations. Avec les nouvelles fonctionnalités, Airflow améliore désormais sa capacité à capturer les dépendances et les flux de données au sein des pipelines, même pour le code Python personnalisé. Ce suivi amélioré favorise la confiance dans les systèmes d'IA, comme l'a déclaré LaNeve, « Un élément clé pour toute application d'IA aujourd'hui est la confiance. » Les utilisateurs ont besoin de garantir que les résultats générés par l'IA sont fiables. Une traçabilité claire fournit une piste auditable documentant comment les données ont été collectées, transformées et utilisées pour entraîner des modèles, renforçant ainsi la gouvernance des données et la sécurité autour des informations sensibles.

Anticiper Airflow 3.0

Alors que la gouvernance, la sécurité et la confidentialité des données continuent de prendre de l'importance, LaNeve prévoit déjà l’avenir d'Airflow avec la version 3.0. Cette prochaine version vise à moderniser Airflow pour l'ère de l'IA générative, avec des priorités qui comprennent la création d'une plateforme plus agnostique en matière de langage, permettant aux utilisateurs de rédiger des tâches dans n'importe quel langage de programmation, et de renforcer la prise en charge des données en se concentrant davantage sur la gestion des flux de données plutôt que sur la simple orchestration des processus.

LaNeve a souligné : « Nous voulons nous assurer qu'Airflow demeure la norme d'orchestration pour les 10 à 15 prochaines années. »

73 % des organisations adoptent l'IA générative, mais peu évaluent les risques associés.

Exists dévoile une plateforme GenAI pour transformer des prompts textuels en jeux 3D captivants.

Most people like

Mixpeek

44.6K

Découvrez Mixpeek : une solution de stockage de fichiers intelligents avancée, dotée de capacités de recherche performantes. Libérez le potentiel de vos fichiers grâce à une fonction de recherche ultra-rapide qui facilite plus que jamais l'organisation et la récupération de vos documents.

outil d'IA AI Search Engine

Dappier

19.5K

Dans le paysage numérique actuel, la demande de contenu de haute qualité atteint des sommets, rendant la licence de contenu AI un atout essentiel pour les entreprises et les créateurs. Les marketplaces en ligne dédiées à la licence de contenu AI offrent une plateforme simplifiée pour accéder, partager et monétiser des matériaux innovants générés par l'IA. Que vous soyez un marketeur à la recherche de visuels engageants ou un créateur de contenu en quête d'idées fraîches, ces marketplaces offrent un véritable trésor de ressources conçues pour améliorer vos projets et augmenter votre productivité. Découvrez comment l'exploitation du contenu AI peut transformer vos efforts créatifs et élever votre marque dans l'espace en ligne concurrentiel.

Licences de contenu IA AI Chatbot

Friends & Fables

133.4K

Vivez D&D 5e comme jamais auparavant avec un Maître de Donjon IA. Profitez d'aventures en solo ou participez à des campagnes multijoueurs, tout à votre rythme—à tout moment, n'importe où. Découvrez les possibilités illimitées des jeux de société grâce à la puissance de l'IA !

D&D 5e Other

Promptmatic

13.2K

Organisez et gérez vos modèles ChatGPT en toute simplicité.

Extension Google Chrome Writing Assistants

Find AI tools in YBX