Die Datenorchestrierung spielt eine entscheidende Rolle beim nahtlosen Transfer von Daten zwischen verschiedenen Systemen, und Apache Airflow hat sich als führendes Tool zu diesem Zweck etabliert, das ursprünglich von Airbnb entwickelt wurde. Kürzlich startete Astronomer, der Hauptsponsor von Apache Airflow, ein Update seiner Astro-Plattform, das die Unterstützung für Unternehmen, Sicherheits- und Verwaltungsfunktionen verbessert. Ursprünglich für die Orchestrierung von Datenpipelines in der Analyse und Unternehmensintelligenz konzipiert, wird Airflow zunehmend auch für KI- (Künstliche Intelligenz) und ML- (Maschinelles Lernen) Arbeitslasten eingesetzt.
„Airflow überzeugt beim Schreiben und Ausführen von Datenpipelines“, sagte Julian LaNeve, CTO von Astronomer. „Durch die Definition von Pipelines als Code eröffnen sich den Nutzern nahezu unbegrenzte Möglichkeiten.“
Die Bedeutung von Airflow in der Datenorchestrierung
LaNeve betonte, dass die Beliebtheit von Airflow gestiegen ist, da es die Definition, den Aufbau und die Implementierung von Datenpipelines für Unternehmen vereinfacht. Es lässt sich nahtlos in wichtige Datenplattformen und Cloud-Dienste wie Snowflake, Databricks, AWS, Microsoft Azure und Google Cloud integrieren. Während Airflow benutzerfreundlich für einzelne Teams ist, steigt die Komplexität auf Unternehmensebene. Hier tritt Astronomer in Erscheinung und bietet einen verwalteten Service für Apache Airflow an.
Astronomer erweitert das Open-Source-Framework um zusätzliche Funktionen. „Wir haben die Astronomer-Laufzeit entwickelt, um das Open-Source-Projekt für eine verbesserte Effizienz zu optimieren“, erklärte LaNeve. Zusätzlich enthält die Astro-Plattform Werkzeuge, die die Erstellung von Datenpipelines vereinfachen. Beispielsweise bietet das Astro Cloud IDE eine notebookbasierte Umgebung für die einfache Entwicklung von Pipelines, während Astronomer auch den Bereich der Beobachtbarkeit erschließt und sich auf das Verständnis des Datenflusses im gesamten Ökosystem konzentriert.
Erweiterte Konnektivität und Verbesserungen mit Astro
Mit dem neuesten Update der Astro-Plattform bringt Astronomer bedeutende Verbesserungen. Eine zentrale Herausforderung bei der Verwaltung von Datenpipelines besteht darin, sichere Verbindungen zu Datenquellen zu gewährleisten; die neue Funktion zur Verbindungsverwaltung adressiert dieses Problem.
Diese Funktion dient als zentraler Punkt für Governance und Sicherheit von Datenpipelines. „Administratoren können ganz einfach Verbindungen zu Snowflake, Databricks und anderen über Airflow zugänglichen Quellen definieren“, erklärte LaNeve. Das Update erleichtert zudem reibungslosere Upgrades und Rollbacks von Datenpipeline-Konfigurationen. Falls eine Pipeline fehlschlägt, können Nutzer schnell auf eine vorherige Konfiguration zurückgreifen, während die Plattform Kompatibilitätsprüfungen durchführt, bevor Updates angewendet werden, um einen reibungslosen Betrieb sicherzustellen.
Astronomers Engagement für KI
Astronomer wird zunehmend für KI-Workflows genutzt. Im November kündigte das Unternehmen Integrationen mit verschiedenen KI-Anbietern an, darunter OpenAI, Cohere, Pinecone, OpenSearch, Weaviate und pgvector. Astronomer stellte auch eine Referenzarchitektur für den Aufbau und Einsatz von Anwendungen mit großen Sprachmodellen (LLM) vor. Die öffentliche Demonstration, verfügbar unter ask.astronomer.io, zeigt, wie Dokumentationen aus zahlreichen Quellen mithilfe einer retrieval-augmented generation (RAG)-Strategie konsolidiert werden können.
LaNeve sieht eine weit verbreitete Nutzung von Airflow und der Astro-Plattform für das Training von KI-Modellen. „Um sicherzustellen, dass Ihre Modelle mit den neuesten Daten trainiert werden, ist Zuverlässigkeit entscheidend, und genau dafür wurden Astronomer und Airflow entwickelt.“