A orquestração de dados desempenha um papel crucial na transferência fluida de dados entre diferentes sistemas, e o Apache Airflow se destacou como uma ferramenta líder para esse fim, originalmente desenvolvida pela Airbnb. Recentemente, a Astronomer, principal apoiadora comercial do Apache Airflow, lançou uma atualização em sua plataforma Astro, aprimorando o suporte empresarial, a segurança e as funcionalidades de gerenciamento. Inicialmente projetado para orquestrar pipelines de dados em análises e inteligência de negócios, o Airflow está sendo cada vez mais utilizado em cargas de trabalho de inteligência artificial (IA) e aprendizado de máquina (AM).
“Airflow se destaca na criação e execução de pipelines de dados,” disse Julian LaNeve, CTO da Astronomer. “Ao definir pipelines como código, os usuários desbloqueiam possibilidades praticamente ilimitadas.”
A Importância do Airflow na Orquestração de Dados
LaNeve enfatizou que a popularidade do Airflow cresceu à medida que ele simplifica a definição, construção e implantação de pipelines de dados para organizações. Ele se integra perfeitamente a grandes plataformas de dados e serviços de nuvem, como Snowflake, Databricks, AWS, Microsoft Azure e Google Cloud. Embora o Airflow seja fácil de usar para equipes individuais, sua complexidade aumenta em nível empresarial. É nesse contexto que a Astronomer atua, oferecendo um serviço gerenciado para o Apache Airflow.
A Astronomer aprimora o framework de código aberto com capacidades adicionais. “Desenvolvemos o runtime da Astronomer, otimizando o projeto de código aberto para melhorar a eficiência,” explicou LaNeve. Além disso, a plataforma Astro inclui ferramentas projetadas para facilitar a criação de pipelines de dados. Por exemplo, o Astro Cloud IDE oferece um ambiente baseado em notebooks para desenvolvimento ágil de pipelines, enquanto a Astronomer também se aventura na observabilidade, focando na compreensão do fluxo de dados pelo ecossistema.
Conectividade Aprimorada e Atualizações com o Astro
Com a última atualização da plataforma Astro, a Astronomer introduz melhorias significativas. Um desafio central na gestão de pipelines de dados é garantir conexões seguras com fontes de dados; o novo recurso de gerenciamento de conexões aborda essa questão. Essa funcionalidade serve como um ponto central de governança e segurança para os pipelines de dados. “Os administradores podem definir facilmente conexões com Snowflake, Databricks e qualquer outra fonte acessível via Airflow,” afirmou LaNeve.
A atualização também facilita atualizações e reversões mais suaves para as configurações de pipelines de dados. Se um pipeline falhar, os usuários podem rapidamente reverter para uma configuração anterior, enquanto a plataforma realiza verificações de compatibilidade antes de aplicar atualizações para garantir um funcionamento suave.
Compromisso da Astronomer com a IA
A Astronomer está sendo cada vez mais utilizada para fluxos de trabalho de IA. Em novembro, a empresa anunciou integrações com uma variedade de fornecedores de IA, incluindo OpenAI, Cohere, Pinecone, OpenSearch, Weaviate e pgvector.
A Astronomer também introduziu uma arquitetura de referência para a construção e implantação de aplicações de grandes modelos de linguagem (LLM). A demonstração pública, disponível em ask.astronomer.io, mostra como consolidar documentação de diversas fontes usando uma estratégia de geração aumentada por recuperação (RAG).
LaNeve prevê o uso generalizado do Airflow e da plataforma Astro para o treinamento de modelos de IA. “Para garantir que seus modelos sejam treinados com os dados mais recentes, a confiabilidade é fundamental, e é exatamente para isso que a Astronomer e o Airflow foram projetados.”