Obter dados de sua origem para um uso eficaz em análises e IA muitas vezes não é uma tarefa simples. A tecnologia de orquestração de dados, como o projeto de código aberto Apache Airflow, desempenha um papel vital na facilitação de pipelines de dados que levam as informações onde são necessárias.
Hoje, é lançado o Apache Airflow 2.10, a primeira atualização significativa do projeto desde o Airflow 2.9, em abril. Esta nova versão apresenta a execução híbrida, permitindo que as organizações otimizem a alocação de recursos para diversas cargas de trabalho, desde consultas SQL simples até tarefas complexas de aprendizado de máquina (ML). As capacidades aprimoradas de rastreamento de linhagem oferecem maior visibilidade sobre os fluxos de dados, essencial para governança e conformidade.
A Astronomer, líder comercial por trás do Apache Airflow, também está atualizando sua plataforma Astro para integrar o dbt-core (Data Build Tool) de código aberto. Essa integração unifica as operações de orquestração e transformação de dados em uma única plataforma.
Essas atualizações buscam simplificar as operações de dados e conectar os fluxos de trabalho tradicionais de dados às novas aplicações de IA, oferecendo às empresas uma abordagem mais adaptável para a orquestração de dados que responde às complexidades de diversos ambientes de dados e processos de IA.
Julian LaNeve, CTO da Astronomer, comentou: “Quando você adota a orquestração, trata-se de coordenar atividades em toda a cadeia de suprimento de dados e garantir visibilidade central.”
Como o Airflow 2.10 Melhora a Orquestração de Dados com Execução Híbrida
Uma melhoria significativa no Airflow 2.10 é a introdução da execução híbrida. Anteriormente, os usuários do Airflow tinham que escolher um único modo de execução para toda a implementação, geralmente um cluster Kubernetes ou o executor Celery. O Kubernetes se destaca no manuseio de tarefas complexas e intensivas em computação, enquanto o Celery é mais eficiente para tarefas leves.
Entretanto, pipelines de dados do mundo real frequentemente abrangem uma mistura de tipos de carga de trabalho. LaNeve observou que uma organização pode precisar realizar uma consulta SQL simples junto a um fluxo de trabalho complexo de aprendizado de máquina na mesma implementação. A execução híbrida agora permite essa flexibilidade, possibilitando que cada componente do pipeline de dados seja otimizado para o nível apropriado de recursos computacionais.
LaNeve destacou: “Escolher modos de execução no nível do pipeline e da tarefa, em vez de uniformemente em toda a implementação, proporciona um novo nível de flexibilidade e eficiência para os usuários do Airflow.”
A Importância da Linhagem de Dados na Orquestração de Dados Voltada para IA
A linhagem de dados—entender a origem e o percurso dos dados—é crucial tanto para análises tradicionais quanto para novas cargas de trabalho de IA. Um rastreamento robusto de linhagem é vital na IA e no aprendizado de máquina, onde a qualidade e a proveniência dos dados podem impactar significativamente os resultados.
Antes do lançamento do Airflow 2.10, o rastreamento da linhagem de dados tinha limitações. Com os novos recursos, o Airflow agora melhora sua capacidade de capturar dependências e fluxos de dados dentro de pipelines, mesmo para códigos Python personalizados. Esse rastreamento de linhagem aprimorado promove confiança em sistemas de IA, como LaNeve afirmou: “Um componente chave de qualquer aplicação de IA hoje é a confiança.” Os usuários precisam de garantias de que os resultados gerados pela IA são confiáveis. Uma linhagem clara oferece uma trilha audível documentando como os dados foram obtidos, transformados e utilizados para treinar modelos, fortalecendo assim a governança de dados e a segurança em torno de informações sensíveis.
Olhando para o Airflow 3.0
À medida que a governança de dados, segurança e privacidade continuam a ganhar importância, LaNeve já está antecipando o futuro do Airflow com a versão 3.0. Este lançamento pretende modernizar o Airflow para a era da IA generativa, com prioridades que incluem tornar a plataforma mais agnóstica em relação a linguagens, permitindo que os usuários escrevam tarefas em qualquer linguagem de programação, e aprimorar a consciência dos dados, focando mais na gestão dos fluxos de dados do que apenas na orquestração de processos.
LaNeve enfatizou: “Queremos garantir que o Airflow continue a ser o padrão de orquestração nos próximos 10 a 15 anos.”