La orquestación de datos juega un papel crucial en la transferencia fluida de información entre diferentes sistemas, y Apache Airflow se ha consolidado como una herramienta líder para este propósito, desarrollada originalmente por Airbnb. Recientemente, Astronomer, el principal patrocinador comercial de Apache Airflow, lanzó una actualización de su plataforma Astro, mejorando el soporte empresarial, la seguridad y las características de gestión. Inicialmente concebido para orquestar canalizaciones de datos en análisis e inteligencia empresarial, Airflow se está utilizando cada vez más para cargas de trabajo de inteligencia artificial (IA) y aprendizaje automático (ML).
“Airflow destaca en la escritura y ejecución de canalizaciones de datos”, afirmó Julian LaNeve, CTO de Astronomer. “Al definir las canalizaciones como código, los usuarios desbloquean posibilidades prácticamente ilimitadas”.
La Importancia de Airflow en la Orquestación de Datos
LaNeve destacó que la popularidad de Airflow ha aumentado, ya que simplifica la definición, construcción y despliegue de canalizaciones de datos para las organizaciones. Se integra sin problemas con las principales plataformas de datos y servicios en la nube, como Snowflake, Databricks, AWS, Microsoft Azure y Google Cloud. Aunque Airflow es amigable para equipos individuales, su complejidad aumenta a nivel empresarial, siendo aquí donde entra Astronomer, que ofrece un servicio gestionado para Apache Airflow.
Astronomer mejora el marco de código abierto con capacidades adicionales. “Hemos desarrollado el runtime de Astronomer, optimizando el proyecto de código abierto para una mayor eficiencia”, explicó LaNeve. Además, la plataforma Astro incluye herramientas diseñadas para facilitar la creación de canalizaciones de datos. Por ejemplo, el Astro Cloud IDE ofrece un entorno basado en notebooks para un desarrollo sencillo de canalizaciones, mientras que Astronomer también se adentra en la observabilidad, enfocándose en comprender el flujo de datos a través del ecosistema.
Conectividad Mejorada y Actualizaciones con Astro
Con la última actualización de la plataforma Astro, Astronomer presenta mejoras significativas. Un desafío clave en la gestión de canalizaciones de datos es garantizar conexiones seguras a las fuentes de datos; la nueva función de gestión de conexiones aborda este tema. Esta característica actúa como un punto central de gobernanza y seguridad para las canalizaciones de datos. “Los administradores pueden definir fácilmente conexiones a Snowflake, Databricks y cualquier otra fuente accesible a través de Airflow”, afirmó LaNeve.
La actualización también facilita actualizaciones y reversión de configuraciones de canalizaciones de datos. Si una canalización falla, los usuarios pueden revertir rápidamente a una configuración anterior, mientras que la plataforma realiza comprobaciones de compatibilidad antes de aplicar actualizaciones para asegurar un funcionamiento fluido.
El Compromiso de Astronomer con la IA
Astronomer se utiliza cada vez más para flujos de trabajo de IA. En noviembre, la empresa anunció integraciones con una variedad de proveedores de IA, como OpenAI, Cohere, Pinecone, OpenSearch, Weaviate y pgvector. Astronomer también presentó una arquitectura de referencia para construir y desplegar aplicaciones de modelos de lenguaje grande (LLM). La demostración pública, disponible en ask.astronomer.io, muestra cómo consolidar documentación de diversas fuentes utilizando una estrategia de generación aumentada por recuperación (RAG).
LaNeve visualiza un uso generalizado de Airflow y la plataforma Astro para entrenar modelos de IA. “Para asegurar que sus modelos se entrenen con los datos más recientes, la fiabilidad es primordial, y eso es precisamente para lo que fueron diseñados Astronomer y Airflow.”