Die Übertragung von Daten aus ihrer Quelle zur effektiven Nutzung in Analytik und KI gestaltet sich oft als herausfordernd. Hier kommt die Datenorchestrierungstechnologie ins Spiel, wie beispielsweise das Open-Source-Projekt Apache Airflow, das entscheidend dazu beiträgt, Datenpipelines aufzubauen, die die benötigten Daten bereitstellen.
Heute wird Apache Airflow 2.10 veröffentlicht, das erste bedeutende Update seit Airflow 2.9 im April. Diese neue Version bietet eine hybride Ausführung, die es Unternehmen ermöglicht, die Ressourcenverteilung für unterschiedliche Arbeitslasten zu optimieren – von einfachen SQL-Abfragen bis hin zu anspruchsvollen Machine Learning (ML)-Aufgaben. Verbesserte Liniendefinitionen gewährleisten eine umfassendere Sicht auf Datenströme, was für Governance und Compliance von entscheidender Bedeutung ist.
Astronomer, der führende kommerzielle Anbieter hinter Apache Airflow, aktualisiert auch seine Astro-Plattform, um das Open-Source-Tool dbt-core (Data Build Tool) zu integrieren. Diese Integration vereint die Datenorchestrierung und Transformationsworkflows auf einer einzigen Plattform.
Diese Updates zielen darauf ab, Datenoperationen zu optimieren und die Lücke zwischen traditionellen Datenworkflows und aufkommenden KI-Anwendungen zu schließen. Unternehmen profitieren von einem anpassungsfähigeren Ansatz zur Datenorchestrierung, der die Komplexitäten unterschiedlicher Datenumgebungen und KI-Prozesse anspricht.
Julian LaNeve, CTO von Astronomer, kommentierte: „Die Orchestrierung bedeutet, Aktivitäten entlang der gesamten Datenversorgungskette zu koordinieren und eine zentrale Sichtbarkeit sicherzustellen.“
Wie Airflow 2.10 die Datenorchestrierung mit hybrider Ausführung verbessert
Eine wichtige Verbesserung in Airflow 2.10 ist die Einführung hybrider Ausführung. Bisher mussten Airflow-Nutzer eine einzige Ausführungsart für ihre gesamte Bereitstellung wählen, typischerweise entweder einen Kubernetes-Cluster oder den Celery-Executor. Kubernetes eignet sich hervorragend für komplexe, rechenintensive Aufgaben, während Celery effizienter für leichtere Aufgaben ist.
Echte Datenpipelines bestehen jedoch oft aus einer Mischung unterschiedlicher Arbeitslasttypen. LaNeve wies darauf hin, dass eine Organisation möglicherweise eine einfache SQL-Abfrage zusammen mit einem komplexen ML-Workflow in derselben Bereitstellung durchführen muss. Hybride Ausführung ermöglicht nun diese Flexibilität, indem jeder Bestandteil der Datenpipeline für die entsprechende Rechenressourcennutzung optimiert werden kann.
LaNeve betonte: „Die Wahl von Ausführungsarten auf Pipeline- und Aufgabenebene, anstatt einheitlich über die gesamte Bereitstellung hinweg, bietet den Airflow-Nutzern eine neue Stufe der Flexibilität und Effizienz.“
Die Bedeutung der Datenlinienführung in KI-orientierter Datenorchestrierung
Die Datenlinienführung – das Verständnis über Herkunft und Verlauf der Daten – ist entscheidend für traditionelle Analytik und aufkommende KI-Workloads. Robustes Linien-Tracking ist in KI und Machine Learning unerlässlich, da die Qualität und Herkunft der Daten die Ergebnisse erheblich beeinflussen können.
Vor der Einführung von Airflow 2.10 gab es beim Datenlinien-Tracking Einschränkungen. Mit den neuen Funktionen verbessert Airflow nun die Fähigkeiten zur Erfassung von Abhängigkeiten und Datenströmen innerhalb von Pipelines, selbst für benutzerdefinierten Python-Code. Dieses verbesserte Linien-Tracking fördert das Vertrauen in KI-Systeme. LaNeve erklärte: „Ein entscheidender Bestandteil jeder KI-Anwendung ist heutzutage Vertrauen.“ Nutzer benötigen die Gewissheit, dass die von der KI generierten Ergebnisse zuverlässig sind. Eine klare Linienführung bietet eine prüfbare Dokumentation darüber, wie Daten beschafft, transformiert und für das Training von Modellen verwendet wurden, wodurch die Daten-Governance und die Sicherheit sensibler Informationen gestärkt werden.
Ein Blick auf Airflow 3.0
Mit zunehmender Bedeutung von Daten-Governance, Sicherheit und Datenschutz blickt LaNeve bereits in die Zukunft von Airflow mit Version 3.0. Dieses kommende Release wird darauf abzielen, Airflow für das Zeitalter der generativen KI zu modernisieren. Die Prioritäten liegen unter anderem darauf, die Plattform sprachunabhängiger zu gestalten, sodass Nutzer Aufgaben in jeder Programmiersprache schreiben können, und die Datenwahrnehmung zu verbessern, indem der Fokus stärker auf die Verwaltung von Datenströmen als auf die bloße Orchestrierung von Prozessen gelegt wird.
LaNeve betonte: „Wir möchten sicherstellen, dass Airflow in den nächsten 10 bis 15 Jahren der Standard für Orchestrierung bleibt.“