Presentamos Apache Airflow 2.10: Una Nueva Era para la Orquestación de Datos en IA

Obtener datos desde su fuente hasta un uso efectivo en análisis e inteligencia artificial (IA) no siempre es sencillo. La tecnología de orquestación de datos, como el proyecto de código abierto Apache Airflow, desempeña un papel vital en la facilitación de pipelines de datos que entregan la información donde es necesaria.

Hoy se lanza Apache Airflow 2.10, la primera actualización importante del proyecto desde Airflow 2.9 en abril. Esta nueva versión introduce la ejecución híbrida, lo que permite a las organizaciones optimizar la asignación de recursos para diversas cargas de trabajo, desde consultas SQL simples hasta tareas complejas de aprendizaje automático (ML). Las capacidades mejoradas de linaje ofrecen una mayor visibilidad sobre los flujos de datos, lo cual es esencial para la gobernanza y el cumplimiento normativo.

Astronomer, el principal proveedor comercial detrás de Apache Airflow, también actualiza su plataforma Astro para integrar el dbt-core (Data Build Tool) de código abierto. Esta integración unifica los flujos de trabajo de orquestación y transformación de datos en una sola plataforma.

Estas actualizaciones buscan simplificar las operaciones de datos y cerrar la brecha entre los flujos de trabajo de datos tradicionales y las aplicaciones emergentes de IA, ofreciendo a las empresas un enfoque más adaptable para la orquestación de datos que aborda las complejidades de diversos entornos de datos y procesos de IA. Julian LaNeve, CTO de Astronomer, comentó: “Cuando adoptas la orquestación, se trata de coordinar actividades a lo largo de toda la cadena de suministro de datos y asegurar visibilidad central”.

Cómo Airflow 2.10 Mejora la Orquestación de Datos con Ejecución Híbrida

Una mejora significativa en Airflow 2.10 es la introducción de la ejecución híbrida. Anteriormente, los usuarios de Airflow debían elegir un modo de ejecución único para toda su implementación, generalmente un clúster de Kubernetes o el ejecutor Celery. Kubernetes es excelente para manejar trabajos complejos y exigentes en computación, mientras que Celery es más eficiente para tareas ligeras. Sin embargo, los pipelines de datos en el mundo real a menudo abarcan una mezcla de tipos de carga de trabajo.

LaNeve señaló que una organización podría necesitar realizar una consulta SQL simple junto con un flujo de trabajo complejo de aprendizaje automático en la misma implementación. La ejecución híbrida ahora permite esta flexibilidad, optimizando cada componente del pipeline de datos según el nivel adecuado de recursos computacionales. LaNeve expresó: "Elegir modos de ejecución a nivel de pipeline y tarea, en lugar de de manera uniforme en toda la implementación, proporciona un nuevo nivel de flexibilidad y eficiencia para los usuarios de Airflow".

La Importancia del Linaje de Datos en la Orquestación de Datos Orientada a la IA

El linaje de datos—comprender el origen y el recorrido de los datos—es fundamental tanto para el análisis tradicional como para las cargas de trabajo emergentes de IA. Un seguimiento robusto del linaje es crucial en la IA y el aprendizaje automático, donde la calidad y la procedencia de los datos pueden impactar significativamente los resultados.

Antes del lanzamiento de Airflow 2.10, el seguimiento del linaje de datos tenía limitaciones. Con las nuevas funcionalidades, Airflow ahora mejora su capacidad para capturar dependencias y flujos de datos dentro de los pipelines, incluso para código Python personalizado. Este seguimiento de linaje mejorado fomenta la confianza en los sistemas de IA, ya que, como señaló LaNeve, "un componente clave para cualquier aplicación de IA hoy en día es la confianza". Los usuarios necesitan la certeza de que los resultados generados por la IA son fiables. Un linaje claro proporciona un rastro auditable que documenta cómo se obtuvieron, transformaron y utilizaron los datos para entrenar modelos, mejorando así la gobernanza y la seguridad de la información sensible.

Mirando Hacia el Futuro con Airflow 3.0

A medida que la gobernanza, la seguridad y la privacidad de los datos continúan adquiriendo importancia, LaNeve ya anticipa el futuro de Airflow con la versión 3.0. Esta próxima versión tiene como objetivo modernizar Airflow para la era de la IA generativa, estableciendo prioridades que incluyen hacer que la plataforma sea más agnóstica en cuanto a lenguajes, permitiendo a los usuarios escribir tareas en cualquier lenguaje de programación y mejorar la conciencia de datos al centrarse más en gestionar flujos de datos que en simplemente orquestar procesos.

LaNeve enfatizó: "Queremos asegurarnos de que Airflow siga siendo el estándar para la orquestación durante los próximos 10 a 15 años".

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles